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编写 说 明 


《心理 与 教育 测量 》 是 华南 病 范 大 学 心理 学 系 组 织 南方 8 
省 师范 大 学 编写 的 心理 学 主干 课程 系列 教材 之 一 。 本 书 从 测量 
学 基本 原理 、 测 验 编制 技术 、 知 名 测验 性 能 3 个 方面 总 结 前 人 
所 编 教材 的 经 验 ， 力 求 反映 测量 研究 领域 的 当代 特色 。 本 书 主 
要 有 如 下 特色 : 

1. 辟 专 章 介 绍 目 标 参 照 测验 的 理论 与 技术 。 

2. 介绍 了 认 知 心理 学 的 一 些 测量 学 新 观点 。 

3. 增加 了 测验 等 值 、 题 库 建设 、 教 师 自 编 测验 等 实用 技 
术 的 介绍 。 . 

4. 加 强 了 对 我 国学 者 在 测 音 学 领域 研究 活动 与 成 果 的 
介绍 。 

5. 专 章 介 绍 了 现代 测量 理论 两 个 主要 分 支 项 目 : 反应 理 
论 与 概 化 理论 的 新 发 展 。 

本 书 可 作为 心理 学 、 教 育 学 、 社 会 学 等 专业 的 测量 课 教 
材 ， 也 作为 从 事 心 理 咨 询 、 考 试 评价 、 人 员 测 评 等 工作 的 人 员 
的 参考 书 。 

全 书 体 系 是 在 主编 提供 的 往 架 基础 上 集体 讨论 而 定 的 ， 纺 
写 分 工 如 下 ; 

张 锋 ; 第 一 、 和 人 入、 十 四 章 

” 罗 黎 辉 : 第 二 章 

杨志明 ; 第 三 、 四 、 五 章 

龙 文 祥 : 第 六 、 七 章 
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戴 海 崎 : 第 九 、 十 一 、 十 七 章 

陈 雪 极 : 第 十 、 十 二 、 十 三 章 

龙 立 荣 : 第 十 五 、 十 六 章 

本 书 初 稿 由 戴 海 时、 张 锋 分 工 审阅 提出 修改 意见 ， 最 后 由 
戴 海 崎 统 校 定 稿 。 

本 书 的 编写 得 到 心理 学 主干 课程 教材 编 委 会 的 指导 ， 特 别 
是 受到 了 编 委 会 主任 英 雷 教授 的 格外 关心 ; 江西 病 大 、 云 南 师 
大 、 华 中 病 大 、 湖 南 病 大 、 安 徽 师 大 等 校 均 对 本 书 的 编写 出 版 
给 了 很 大 帮助 ， 在 此 一 并 深 表 谢意 。 我 们 还 得 感谢 竖 南 大 学 出 
版 社 对 本 书 的 扶持 。 在 编写 中 ， 我 们 参考 了 国内 外 大 量 资料 ， 
有 些 还 作 了 摘 引 ， 在 此 也 向 这 些 作者 表示 感谢 。 
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第 一 章 ”心理 与 教育 测量 


本 章 提 要 : 

鳞 测 量 的 基本 性 质 及 其 要 过 

竹 测 重量 表 的 四 种 水 平 

外 心理 三 教育 测量 及 其 理论 基础 

@@ 心 理 与 教育 测量 的 量 表 和 测验 

重心 理 与 教育 测量 科学 研究 和 实际 工作 中 的 意义 
重心 理 与 教育 测量 工作 者 的 素质 要 求 与 道德 准则 


2: 心理 与 教育 测量 


心理 与 教育 测量 是 我 国 各 大 学 心理 专业 和 教育 专业 学 生 必 
复 的 重要 的 专业 课 ， 它 在 心理 科学 、 教 育 科 学 的 基础 学 科 和 应 
用 学 科 之 间 起 着 一 种 中 介 作 用 。 一 方面 ， 它 是 基础 心理 学 科 和 
基础 教育 学 科 的 深化 ， 是 从 事 基础 理论 研究 的 方法 课 ; 另 一 方 
面 ， 它 又 是 应 用 心理 学 科 和 应 用 教育 学 科 的 基础 ， 是 从 事实 际 
应 用 研究 的 工具 课 。 在 本 章 里 ， 我 们 将 讨论 心理 与 教育 测量 的 
若干 基本 概念 和 基本 问题 ， 以 便 为 学 习 以 后 各 章 的 具体 知识 提 
供 一 个 基本 的 框架 。 


第 一 节 ”一 般 测量 概述 


一 、 测 量 及 其 种 类 


测量 (measurement) 是 人 类 生产 和 生活 中 普 忆 存在 的 更 
象 。 农 业 生 产 要 丈量 土地 面积 ， 工 业 生 产 要 测定 产品 的 技术 指 
标 ， 地 质 勘 探 要 测定 海拔 高 度 和 地 质 指 标 ， 医 疗 工作 要 测定 人 
体 的 生理 指标 ， 教 育 工作 要 测定 学 生 的 学 业 成 绩 。 至 于 科学 研 
究 中 的 测量 活动 就 更 加 普遍 ， 也 更 加 严格 了 。 和 那么， 究竟 什么 
是 测量 呢 ? 

简单 地 说 ， 测 量 就 是 依据 一 定 的 法 则 使 用 量具 对 事物 的 特 
征 进行 定 基 描述 的 过 程 。 

所 谓 “ 一 定 的 法 则 ”， 是 指 任何 测量 都 要 建立 在 科学 规则 
和 科学 原理 基础 之 上 ， 并 通过 科学 的 方法 和 程序 完成 测量 过 
程 。 例如 .用 杆 秤 测 景物 体 的 重量 ,依据 的 是 物理 党 上 的 杠杆 
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原理 ; 用 温度 计 测 景 温度， 依据 的 是 热 胀 冷 缩 原理 。 有 的 测量 
依据 的 法 则 比较 科学 和 完善 ， 测 重 的 结果 比较 准确 、 可 靠 ， 而 
有 的 测量 依据 的 法 则 比较 粗糙 和 久 成 熟 ， 测 量 结果 的 准确 性 和 
可 车 性 较 差 。 有 的 测量 依据 的 法 则 的 操作 比较 直观 和 简单 ， 一 
般 的 人 不 需要 经 过 专业 训练 就 很 容易 掌握 ， 而 有 的 测量 所 依据 
的 法 则 的 操作 复杂 ， 需 要 经 过 专门 训练 才能 逐步 掌握 。 

所 谓 “ 事 物 的 特征 "， 是 指 所 要 测量 的 事物 的 特定 属性 。 
例如 ， 物 体 的 重量 、 长 短 、 高 矮 ; 物体 运动 的 速度 ; 物体 中 某 
些 特 定 成 分 的 含量 等 等 。 这 些 不 同 的 特征 就 是 测量 的 特定 对 
象 。 一 种 事物 有 各 种 各 样 的 特征 ， 对 不 同 的 特征 要 用 不 同 的 测 
量 工 具 、 依 据 不 同 的 法 则 进行 测量 。 有 些 事物 的 特征 直观 明 
显 ， 具 有 外 显 性 〈 如 物体 的 重量 、 长 度 等 )， 所 以 在 测量 中 容 
易 被 确定 ， 测 量 的 结果 具有 无 可 争辩 性 ， 容 易 被 所 有 的 人 认 局 
和 接受 ; 而 有 些 事物 的 特征 不 那么 外 人 露 ， 具 有 内 陷 人 性 〈 如 人 的 
智力 水 平 、 性 格 特点 等 )， 所 以 在 测量 中 难以 准确 界定 ， 测 量 
的 结果 不 容易 获得 清楚 的 解释 ， 因 而 也 不 容易 取得 多 数 人 的 认 
同和 接受 。 

所 谓 “ 显 具 "， 是 指 测量 中 所 使 用 的 工具 。 例 如 ， 重 量 测 
量 中 的 杠 秤 、 电 子 秤 ,长度 测 量 中 的 木 尺 、 皮 尺 ， 体 温 测 量 中 
的 体温 计 等 等 。 不同 的 测量 要 用 不 同 的 量具 ,不同 量具 所 使 用 
的 单位 和 参照 点 也 不 同 。 

所 谓 “ 定 量 描述 "， 是 指 任 何 测量 的 结果 总 是 对 事物 特征 
的 量 的 确定 。 虽 然 有 时 人 们 把 诸如 “1” 代 表 男 ，“0” 代 表 女 
这 样 的 做 法 也 叫做 测量 ， 但 这 里 的 数字 仅仅 是 一 种 符号 ， 并 不 
是 数量 。 所 谓 “ 数 量 ”不 仅 指 事物 特征 的 符号 ， 而 且 指 一 种 有 
序 的 量 。 数 量具 有 4 个 特征 : 一 是 它 的 区 分 性 ， 即 一 个 数 (如 
二) 不 同 于 另 一 个 数 (如 “2"); 二 是 它 的 序列 性 ， 即 1 <2 
<3<4……; 三 是 它 的 等 距 性 ， 即 2-1=1, 3-2=1， 所 以 ， 
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2-1=3-2; 四 是 它 的 可 加 性 ， 即 一 个 教 加 另 一 个 数 产生 第 三 
个 数 。 数 的 这 些 特 点 是 一 切 数 学 运算 的 基础 ， 同 样 ， 也 正 是 数 
的 这 些 特点 使 得 对 事物 特征 的 差异 的 测量 成 为 可 能 。 有 的 测量 
对 事物 的 特征 定量 描述 的 精确 度 高 些 ， 而 另 一 些 测量 对 事物 的 
特征 定量 描述 的 精确 度 差 些 。 测 量 的 精确 度 野 与 测量 对 象 的 性 
质 有 关 ， 也 同 测量 时 所 用 的 工具 有 关 。 

首先 ， 测 量 的 精确 度 决定 于 测量 对 象 本 身 的 性 质 。 我 们 可 
根据 测量 对 象 的 性 质 把 它 分 为 3 种 类 型 : 中 确定 型 ， 即 在 一 定 
条 件 下 ,事物 的 量 保持 恒定 不 变 。 例 如 ， 物 体 的 长 度 和 重量 ， 
只 要 物质 的 温度 不 变 , 受 力 状 况 不 变 ， 其 长 度 也 就 不 会 改变 ; 
只 要 物体 在 地 球 表 面 的 水 平 位 置 和 垂直 高 度 不 变 ， 其 重量 也 不 
会 改变 。 名 随机 型 ， 即 事物 的 量 随 机 改变 。 例 如 ， 人 的 短 时 记 
忆 的 容量 ,尽管 实验 者 在 实验 过 程 中 每 次 向 被 试 晨 现 刺 激 的 条 
件 保 持 恒定 ,但 每 次 测量 的 结果 总 是 存在 差异 ， 不过， 这 种 差 
异 又 总 是 保持 在 一 定 的 范围 和 内， 量 的 改变 趋势 也 呈现 出 一 定 的 
规律 。@@ 模 类 型 ， 即 事物 的 量 本 身 就 是 模糊 不 定 的 ， 难 以 获得 
确定 的 量 。 例 如 ， 对 人 的 性 格 特征 ， 尽 管 人 们 习惯 于 用 热情 奔 
放 或 冷 车 冰 需 等 词汇 来 描绘 ， 而 且 也 能 够 区 分 出 两 个 同 是 热情 
奔放 的 人 在 程度 上 的 差别 ， 但 这 种 差别 的 量 却 是 很 模糊 的 。 显 
然 ， 对 确定 型 的 事物 进行 定量 描述 要 比 对 随机 型 和 模糊 型 的 事 
物 进行 定量 描述 要 容易 得 多 ， 因 此 ， 测 量 的 精确 度 也 要 高 得 
多 。 但 是 ， 即 使 对 确定 型 的 事物 也 不 能 做 出 绝对 精确 的 描述 ， 
在 任何 测量 过 程 中 都 会 有 误差 存在 ， 所 不 同 的 是 误差 的 大 小 
而 已 。 

其 次 ,测量 的 精确 度 决定 于 测量 工具 〈 量 尺 ) 的 精密 性 。 
不 言 而 喻 ， 使 用 技术 上 完善 的 测量 工具 比 使 用 技术 上 粗糙 的 测 
量 工具 ， 其 测量 结果 要 精确 得 多 。 对 于 长 度 的 测量 ， 用 皮 尺 济 
员 比 之 用 脚步 测量 ， 其 结果 要 精确 得 多 : 而 用 激光 测 最 比 之 用 
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皮 尺 测量 ， 其 结果 又 要 精确 得 多 。 同 样 ， 对 于 重量 的 测量 ， 用 
杆 秤 测量 比 个 人 的 主观 估计 ， 其 结果 要 精确 得 多 ; 而 用 电子 秤 
测量 比 用 杆 秤 测量 ， 其 结果 又 要 精确 得 多 。 因 此 ， 尽 可 能 使 用 
技术 精密 的 测量 工具 ， 是 保证 测量 精确 度 的 重要 条 件 。 但 是 ， 
不 论 使 用 何等 精密 的 测量 工具 ， 实 际 测量 中 仍然 会 有 误差 存 
在 ， 所 不 同 的 也 仅 是 误差 的 大 小 而 已 。 测 量 学 的 目标 之 一 是 设 
， 法 尽 可 能 把 误差 减少 到 最 低 程 度 ， 而 不 可 能 完全 消灭 误差 。 

测量 技术 被 广泛 用 于 工农 业 生 产 、 商 业 活 动 、 科 学 研究 和 
人 们 的 日 常生 活 领域 。 根 据 测 量 对 象 的 人 性质 和 特点 ， 可 以 将 各 
种 不 同形 式 的 测量 大 致 分 为 4 种 类 型 : 四 物理 测量 ; 即 对 事物 
的 物理 特征 的 测量 。 如 长 度 测量 、 重 量 测量 、 面 积 测量 、 速 度 
测量 等 等 均 属 物理 测量 。@ 生 理 测量 : 即 对 机 体 生理 特征 的 测 
量 。 如 对 动 植物 各 种 化 学 成 分 含量 的 测量 ， 对 大 体 各 种 生理 机 
能 的 测量 等 等 均 属 生理 测量 。@ 社 会 测量 ;， 即 对 社会 现象 的 测 
量 。 如 在 人 口 普 查 、 经 济 统计 、 民 意 调 查 中 所 使 用 的 测量 技术 
均 属 社会 测量 。 人 @ 心 理 测量 : 即 对 人 的 心理 特征 的 测量 。 如 智 
力 测量 、 人 格 测量 、 职 业 兴 趣 测量 、 态 度 测 量 等 等 均 属 心理 测 
量 。 狭义 的 教育 测量 主要 指 对 学 生 学 业 成 绩 和 知识 水 平 的 测 
量 , 此 时 ,教育 测量 可 以 被 包括 在 心理 测量 的 范畴 之 内 。 但 
是 ,广义 上 的 教育 测量 不 仅 包括 对 学 生 学 业 成 绩 和 知识 水 平 的 
测量 ,而且 包括 对 教育 领域 中 其 他 教育 现象 的 测量 。 如 对 教师 
教学 水 平 的 测量 、 对 整个 学 校 办 学 质量 的 测量 、 对 学 校 管理 水 
平 的 测量 等 等 。 此 时 ， 教 育 测量 当 属 社会 测量 的 范 蝴 。 本 书 所 
使 用 的 教育 测量 是 指 狭义 的 教育 测量 ， 但 为 了 与 其 他 心理 测量 
有 所 区 别 ， 将 教育 测量 与 心理 测量 这 两 个 术语 并 列 使 用 。 
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二 、 测 量 的 基本 要 素 


任何 测量 都 必须 具备 两 个 基本 要 素 ， 即 测量 的 参照 点 和 测 
量 的 单位 。 


(一 ) 测量 的 参照 点 

从 根本 上 说 ， 测 量 是 确定 特定 事物 的 特定 特征 的 数量 。 因 
此 ， 在 测量 工作 中 ,必须 有 一 个 量 的 起 点 。 这 个 起 点 就 叫 作 测 
量 的 参照 点 。 要 使 两 个 测量 结果 能 够 相互 比较 ， 必 须 使 这 两 个 
测量 建立 在 同一 个 参照 点 上 。 因 为 参照 点 不 同 的 两 个 测量 ,其 
结果 的 意义 完全 不 同 ， 没 有 可 比较 的 共同 基础 。 

参照 点 有 两 种 : 一 种 是 绝对 参照 点 ， 即 以 绝对 的 零点 作为 
测量 的 起 点 。 如 长 度 测量 和 重量 测量 就 是 建立 在 以 绝对 的 零点 
为 参照 点 的 基础 上 的 测量 。 这 个 绝对 的 零点 的 意义 就 是 “无 "， 
即 没有 重量 或 没有 长 度 。 以 此 为 测量 的 起 点 ， 去 确定 某 种 事物 
有 多 重 或 有 多 长 。 另 一 种 是 相对 参照 点 ， 即 以 人 为 确定 的 零点 
为 测量 的 起 点 。 如 对 地 势 高 度 的 测量 ， 就 是 以 海平 面 为 测量 的 
起 点 。 此 时 ， 大 们 假定 海平 面 的 高 度 为 “ 零 "， 然 后 去 确定 陆 
地 高 出 海平 面 多 少 ， 再 如 对 气温 的 测量 ， 是 以 水 的 冰点 为 测量 
的 起 点 。 此 时 ， 人 们 假定 水 刚刚 能 够 结 为 冰 的 温度 为 “ 零 "， 
然后 确定 气温 高 于 或 低 于 “ 零 ” 多 少 度 。 

最 为 理想 的 测量 参照 点 当然 是 绝对 参照 点 ， 因 为 它 的 意义 
最 为 明确 。 但 在 许多 情况 下 ， 人 们 难以 找到 绝对 参照 点 ， 所 以 
必须 改 用 相对 参照 点 。 采 用 相对 参照 点 为 测量 起 点 的 测量 结果 
只 能 进行 加 减 运算 ， 而 不 能 进行 乘除 运算 ”内 此 ， 它 的 两 个 值 
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之 间 没 有 倍数 关系 。 例 如 ， 在 智力 测量 中 ， 假 定 甲 的 智商 为 
100， 而 乙 的 智商 为 59， 我 们 不 能 说 甲 的 智商 是 乙 的 智商 的 2 
倍 ， 而 只 能 说 甲 的 智商 高 出 乙 的 管 商 50。 


(二 ) 测量 的 单位 

测量 的 第 二 个 基本 要 素 是 它 的 单位 。 不 同 测量 所 用 的 单位 
是 不 同 的 。 长 度 测 量 的 单位 是 毫米 、 厘 米 、 分 米 、 米 等 等 ， 而 
重量 测量 的 单位 是 毫克 、 克 、 千 克 、 吨 等 等 。 理 想 的 测量 单位 
应 当 具 备 两 个 条 件 ; 一 是 要 有 确定 的 意义 ， 即 对 同一 单位 ， 所 
有 的 人 的 理解 都 是 相同 的 ， 不 允许 作出 不 同 的 解释 。 例 如 ， 所 
有 的 人 对 重音 单位 “千克 ”的 解释 都 是 一 样 的 ， 没 有 歧义 。 二 
是 要 有 相等 的 价值 ， 即 第 一 个 单位 与 第 二 个 单位 之 间 的 距离 等 
于 第 二 个 单位 与 第 三 个 单位 之 间 的 距离 。 例 如 ，30 公斤 与 20 
公斤 之 差 等 于 40 公斤 与 30 公斤 之 差 。. 但 是 ， 在 茶 些 情 况 下 ， 
要 具备 这 两 个 条 件 是 相当 困难 的 。 例 如 ， 教 育 与 心理 测量 中 的 
单位 就 往往 难以 达到 这 个 要 求 ， 它 远 没有 其 他 测量 中 使 用 的 单 
位 成 熟 和 完善 。 这 一 点 我 们 在 后 面 还 会 谈 到 。 


三 、 测 量 的 量 表 


要 测量 某 一 特定 事物 的 特定 特征 的 数量 ， 必 须 首 先 选择 一 
个 具有 确定 单位 和 测量 参照 点 的 数字 连续 体 ， 将 欲 测 量 的 特征 
与 这 个 连续 体 相 比照 ， 确 定 它 的 位 置 ， 看 它 距 参 照 点 的 远近 ， 
就 会 得 到 该 特征 的 一 个 测量 值 。 这 种 能 够 使 事物 的 特征 数量 化 
的 数字 的 连续 体 就 是 量 表 (scale)， 制 定量 表 的 单位 和 参照 点 
不 网 ，、 就 会 编制 出 不 同 的 量 表 ; 不 同 的 量 表 具有 不 同 的 测 基 水 
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平 ， 相 应 地 测量 的 精 歼 度 也 不 同 。 根 据 测量 的 不 同 水 平 以 及 测 
量 中 使 用 的 不 同 单位 和 参照 点 ， 我 们 把 测量 量 表 分 为 4 种 。 


(一 ) 命名 玻 表 

命名 量 表 (nominal seale) 是 最 低 水 平 的 测量 量 表 ， 它 只 
是 用 数字 代表 事物 或 用 数字 对 事物 进行 分 类 。 在 这 种 情况 下 ， 
数字 只 是 事物 的 符号 ， 而 没有 任何 数量 的 意义 。 因 此 ， 运 用 命 
名 量 表 时 不 能 作 常 用 的 数量 化 分 析 。 如 我 们 不 能 说 6 号 学 生 > 
5 号 学 生 > 4 号 学 生 ， 当 然 也 不 能 进行 代数 运算 。 正 因为 如 此 ， 
有 人 认为 运用 命名 量 表 进 行 的 测量 不 能 算 作 是 真正 意义 上 的 
测量 。 

命名 量 表 又 可 细 分 为 两 种 形式 : 一 是 名 称 量 表 ， 即 用 数字 
指 代 个 别 事物 。 如 用 数字 给 学 生 或 运动 员 编 号 。 二 是 类 别 量 
表 ， 即 用 数字 指 代 事 物 的 种 类 。 如 用 1、2、3、4、5…… 分 别 
代表 不 同 的 职业 。 ; 

适合 于 对 命名 量 表 进行 统计 分 析 的 统计 方法 有 百分比 、 次 
数 、 众 数 和 检验 。 


(二 ) 笑 序 重 表 

顺序 量 表 (ordinal scale) 是 次 低 水 平 的 测量 量 表 ， 它 不 仅 
能 够 指 代 事物 类 别 ， 而 且 能 够 表明 不 同类 别 的 大 小 、 等 级 或 事 
物 具 有 某 种 特征 的 程度 。 各 种 比赛 、 评 估 中 的 名 次 排列 就 是 一 
种 典型 的 运用 顺序 量 表 进 行 的 测量 。 例 如 ， 在 各 种 体育 比赛 
中 ， 我 们 通常 取 前 3 名 ， 分 别 用 1、2、3 代表 ,那么 ,我 们 就 
可 以 说 ，1>2>3。 这 表示 ,第 1 名 的 水 平 高 于 第 2 名 的 水 平 ， 
第 2 名 的 水 平 又 高 于 第 3 名 的 水 平 。 这 种 按照 事物 的 大 小 、 等 
级 、 程 度 而 排列 数字 的 量 表 就 叫 硕 序 量 表 。 

在 头 序 量 表 中 ， 数 字 只 表示 等 级 、 大 小 和 程度 的 顺序 、 它 
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既 没 有 相等 的 单位 ， 也 没有 绝对 的 零点 。 换 言 之 ， 它 既 不 表示 
事物 特征 的 真正 的 数量 ， 也 不 表示 绝对 的 数值 ， 因 此 不 能 进行 
代数 运算 。 

适合 于 对 顺序 量 表 进行 统计 分 析 的 统计 方法 有 中 位 数 、 百 
分 位 数 、 等 级 相关 系数 和 肯 德 尔 和 谐 系 数 等 。 


(三 ) 等 距 量 表 

等 距 量 表 (equal interval scale) 是 较 高 水 平 的 测量 量 表 ， 
因为 它 不 仅 能 够 指 代 事 物 的 类 别 、 等 级 ， 而 且 具 有 相等 的 单 
位 。 等 距 量 表 的 数字 是 一 个 真正 的 数量 ， 这 个 数量 中 各 个 部 分 
的 单位 是 相等 的 ， 因 此 就 可 以 对 其 进行 加 减 运算 。 例 如 ， 在 测 
定 气温 时 ，10% 和 15 和 的 差别 与 15 筷 和 20 乞 的 差别 是 相等 的 。 

等 距 量 表 没有 绝对 的 等 点 ， 它 的 零点 是 人 们 假定 的 相对 零 
点 。 因 此 ， 对 于 等 距 量 表 中 的 两 个 数量 不 能 进行 乘除 运算 ， 它 
们 之 间 不 存在 倍数 关系 。 例 如 ， 我 们 不 能 说 20 忆 是 10 工 的 两 倍 。 

适合 于 对 等 距 量 表 进 行 统计 分 析 的 统计 方法 有 平均 数 、 标 
准 差 、 积 差 相 关系 数 以 及 t 检 验 和 了 检验 。 


(四 ) 比率 置 表 

比率 量 表 (ratio scale) 是 最 高 水 平 的 测量 量 表 ， 因 为 它 
除了 具有 类 别 、 等 级 、 等 距 的 特征 外 ， 还 具有 绝对 的 零点 。 使 
用 比率 量 表 ， 不 仅 可 以 知道 测量 对 象 之 间 相 差 的 程度 ， 面 且 可 
以 知道 它们 之 各 的 比例 。 在 长 度 测 量 和 重量 测量 等 物理 测量 
中 ， 人 们 广泛 使 用 比率 重 表 。 例 如 ， 在 长 度 测量 中 ， 测 得 甲 的 
长 度 为 9? 米 ， 乙 的 长 度 为 3 米 。 此 时 我 们 不 仅 了 解 到 审 比 乙 长 
6 米 ， 也 了 解 到 甲 的 长 度 是 乙 的 长 度 的 3 倍 。 在 重量 测量 中 ， 
测 得 甲 的 重量 为 40 公斤 ， 乙 的 重量 为 20 公斤 。 那 么 ， 我 们 既 
可 知道 甲 比 乙 重 20 公斤， 又 可 知道 甲 的 重 景 是 乙 的 重 虹 的 两 倍 
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适合 于 对 顺序 量 表 进行 统计 分 析 的 统计 方法 除了 与 等 距 量 
家 相 同 外 ， 还 与 妃 何 平均 数 、 变 异 系数 相同 。 


第 二 节 ”心理 与 教育 测量 的 性 质 
一 、 心 理 与 教育 测量 的 定义 


根据 一 般 测 量 的 定义 ， 我 们 可 以 将 心理 与 教育 测量 定义 
为 : 依据 一 定 的 心理 学 和 教育 学 理论 ， 使 用 测验 对 人 的 心理 特 
质 和 教育 成 就 进行 定量 描述 的 过 程 。 与 一 般 测 量 的 定义 相 比 
较 ， 心 理 与 教育 测量 的 定义 既 具 有 一 般 测 量 的 共同 属性 ， 又 具 
有 其 独特 的 性 质 。 

首先 ， 心 理 与 教育 测量 依据 的 法 则 在 很 大 程度 上 只 是 一 种 
理论 ， 很 难 达 到 如 同 物理 测量 依据 的 法 则 那样 普遍 被 人 们 接受 
的 水 平 。 心 理 与 教育 测量 学 家 凭借 这 些 理论 来 编制 测量 的 工具 
并 完成 测量 工作 。 例 如 ， 测 量 学 家 在 编制 智力 测验 时 对 智力 本 
身 的 性 质 存 有 非常 不 同 的 看 法 ， 对 智力 的 结构 成 分 也 有 非常 不 
同 的 理解 。 因 此 ， 从 一 种 智力 测验 上 得 到 的 测量 分 数 与 男 一 种 
智力 测验 上 得 到 的 测量 分 数 可 能 具有 不 同 的 意义 。 由 于 所 依据 
的 法 则 不 够 成 熟 ， 即 使 使 用 同一 种 测验 测量 ， 所 得 结果 也 不 像 
物理 测量 那样 准确 和 可 靠 。 这 种 情况 在 人 格 测量 领域 表现 得 更 
加 明显 。 

其 次 ， 心 理 与 教育 测量 的 对 象 是 人 的 心理 特质 和 教育 成 
就 。 教 育成 就 的 含义 比较 明显 ， 是 指 一 个 人 通过 接受 教育 而 获 
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得 的 知识 水 平 。 心 理 特质 的 含义 则 比较 含混 ， 不 大 能 够 给 予 沙 
想 的 界定 。 必 理学 上 通常 将 “特质 ”理解 为 相对 稳定 的 、 对 个 
人 的 行为 具有 持久 的 调节 作用 的 心理 特征 ， 如 智力 、 兴 趣 、 态 
度 、 人 格 等 等 均 可 以 视 为 特质 。 智 力 、 兴 趣 、 态 度 、 人 格 等 特 
质 本 身 就 是 很 抽象 的 概念 ， 在 测量 工作 中 ， 将 其 具体 为 可 操作 
的 测量 对 象 本 身 就 是 一 件 非 常 复杂 的 工作 。 心 理 特质 显然 具有 
内 路 性 ， 我 们 不 可 能 像 测量 重量 或 长 度 那 样 直接 测量 人 的 心理 
特质 的 量 ， 而 是 通过 测量 个 人 在 特定 情境 中 的 外 显 行为 来 推断 
他 的 心理 特质 。 这 就 决定 了 心理 与 教育 测量 只 能 是 一 种 间接 
测量 。 

再 次 ,心理 与 教育 测 景 的 量具 是 由 有 关 领 域 的 专家 编制 ， 
经 过 长 期 的 试用 、 修 订 、 完 善 而 逐渐 形成 的 标准 化 测验 
《test)。 它 的 编制 是 一 项 高 度 专门 化 的 系统 工作 ， 要 达到 科学 
所 要 求 的 水 平 绝 非 易 事 。 

最 后 ， 心 理 与 教育 测量 的 目标 虽然 是 对 人 的 心理 特质 和 教 
育成 就 进行 定量 分 析 ， 但 这 种 定量 分 析 的 精确 度 远 不 及 物理 测 
量 的 精确 度 高 。 这 首先 是 由 人 的 心理 特质 的 高 度 复杂 性 所 决定 
的 ,同时 也 与 目前 的 测验 编制 理论 不 够 先进 ， 测 验 编制 的 技术 
水 平 不 高 有 关 。 


二 、 心 理 与 教育 测量 的 理论 基础 


在 阐述 心理 与 教育 测量 的 定义 的 过 程 中 ,我 们 在 说 明 心理 
与 教育 测量 特征 的 同时 ， 着 重 强调 了 心理 与 教育 测量 的 复杂 性 
和 难度 。 也 许 正 因为 如 此 ， 人 大 们 对 心理 与 教育 测量 是 否 必 要 和 
是 否 可 能 持 有 怀疑 态度 归纳 起 来 . 剑 疑 心理 与 教育 测量 的 必 
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要 性 和 可 能 竹 的 理由 不 外 乎 两 个 方面 : 人 人 的 心理 现象 和 知识 
水 平 是 一 种 主观 存在 ， 它 的 复杂 性 、 流 动 性 和 内 隐 性 的 特征 使 
人 们 不 可 能 对 其 进行 直接 测量 。 人 @ 目 前 的 心理 与 教育 测量 的 技 
术 手 段 远 未 达到 如 物理 测量 那样 的 准确 和 可 靠 。 

那么 ,心理 与 教育 测量 究竟 是 否 必要 和 是 否 可 能 ? 对 此 ， 
我 国 古代 学 者 孟子 早 在 2000 多 年 前 就 给 予 了 明确 的 、 并 且 是 
肯定 的 回答 (参见 第 二 章 )。 但 直到 本 世纪 初期 ， 随 着 心理 与 
教育 测量 运动 的 发 展 ， 这 个 问题 才 真正 摆 在 了 测量 学 家 的 面 
前 。1918 年 ， 桑 代 克 曾 提 出 ，“ 凡 客观 存在 的 事物 都 有 其 数 
量 ”"。1939 年 ， 麦 柯 尔 进一步 指出 , “ 凡 有 其 数量 的 事物 都 可 
以 测 其 ” 这 两 个 命题 被 公认 为 是 心理 与 教育 测量 的 理论 基础 。 

从 辩证 唯物 主义 的 观点 看 ， 任 何事 物 都 是 质 和 量 的 统一 ， 
事物 的 质 的 差异 是 分 类 的 前 提 ， 而 事物 的 量 的 差异 则 是 测量 的 
前 担 。 这 里 的 “事物 ”不 仅 指 外 在 的 客观 现象 ， 而 且 指 人 的 内 
在 的 主观 现象 。 根 据 这 一 前 提 ， 我 们 认为 ， 人 的 心理 现象 和 
知识 水 平 如 同 其 他 一 切 物理 现象 一 样 是 有 差异 的 ， 这 种 差异 不 
仅 包含 质 的 方面 ， 也 包含 量 的 方面 。 因 为 有 差异 ， 所 以 有 必要 
测定 差异 的 数量 ,描述 差异 的 程度 。@@ 心 理 特质 和 知识 水 于 虽 
然 不 是 物理 实体 ， 不 能 直接 测量 ， 却 必然 要 表现 于 人 的 外 部 行 
为 之 中 ,并 调节 着 人 的 外 部 行为 。 因 此 ， 通 过 观测 人 的 外 部 行 
为 的 差异 就 有 可 能 测量 出 人 的 心理 特质 和 知识 水 平 的 差异 。@ 
心理 与 教育 测量 的 准确 性 、 可 靠 性 和 精确 度 如 同 其 他 一 切 测量 
技术 一 样 是 相对 的 ， 也 同 其 他 一 切 测量 技术 一 样 必然 随 着 科学 
技术 的 进步 和 发 展 而 逐步 所 高。 目前 的 心理 与 教育 测量 的 科学 
性 还 达 不 到 人 们 所 期 望 的 准确 的 高 度 ， 但 测量 不 准 不 等 于 不 能 
测量 ， 目 前 测量 不 准 也 不 意味 着 将 来 永远 测量 不 准 。 近 100 年 
来 ,心理 与 教育 测量 学 家 正 是 抱 着 这 种 信念 进行 了 大 量 的 研 
究 . 取得 了 明显 的 成 效 ， 已 经 初步 形成 了 一 套 比 较 科 学 的 测 划 
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理论 与 技术 。 可 以 设想 ， 随 着 研究 工作 的 拓展 和 深化 ， 心 理 与 
教育 测量 的 科学 水 平 将 会 进一步 提高 。 


我 们 在 第 一 节 里 已 经 谈 到 ， 测 量 中 所 使 用 的 单位 和 参照 点 
的 水 平 不 同 ， 就 会 有 不 同 水 平 的 测量 量 表 。 那 么 ， 心 理 与 教育 
测量 的 量 表 属于 哪 一 水 平 呢 ? 从 本 质 上 讲 ， 心 理 与 教育 测量 的 
量 表 属于 顺序 量 表 。 这 是 因为 : 中 从 所 使 用 的 参照 点 来 说 ， 教 
育 测量 和 心理 测量 领域 的 参照 点 均 为 相对 参照 点 。 例 如 ， 在 学 
期 末 的 学 科 考 试 中 ， 通 常 的 做 法 是 把 学 生 的 成 绩 确定 在 0 ~ 
100 分 之 间 。 显 然 ， 这 个 0 分 是 人 为 假定 的 起 点 。 因 为 即使 某 
学 生得 了 0 分， 我 们 也 不 能 说 该 生 在 本 学 期 内 没有 学 到 任何 知 
识 ， 或 者 说 该 生 的 知识 水 平 为 “ 零 。 在 智力 测量 中 ， 假 定 某 
一 儿童 不 会 敌 任 何 一 个 题目 ， 那么 ， 他 的 成 绩 为 0 分 但 这 个 
0 分 也 并 不 表示 他 的 智力 水 平 为 “ 零 "。 这 就 决定 了 心理 与 救 
育 测量 的 量 表 不 可 能 达到 比率 和 量 表 的 水 平 。@ 从 所 使 用 的 单位 
来 说 ， 教 育 与 心理 测量 的 单位 远 没 有 其 他 测量 的 单位 成 熟 和 完 
善 。 一 是 教育 与 心理 测量 所 使 用 的 单位 的 意义 不 太 明确 。 例 
如 ， 在 各 种 形式 的 考试 中 ,虽然 使 用 单位 都 是 “分 ”, 但 实际 
上 ， 数 学 考试 中 的 “分 ”和 语文 考试 中 的 “分 ”的 意义 是 不 相 
同 的 。 学 生 在 不 同学 科 上 的 考试 成 绩 所 代表 的 不 是 同一 个 东 
西 。 二 是 在 教育 与 心理 测量 中 的 单位 常常 不 等 值 。 例 如 ， 同 一 
次 数学 考试 ， 学 生 做 对 一 道 较 简 单 的 题目 ， 得 到 1 分 ， 阅 样 做 
对 一 道 较 复 杂 的 题目 ， 也 得 到 1 分 。 从 表面 上 看 ， 前 者 的 1 分 
和 项 者 的 1 分 是 等 值 的 。 但 实际 上 ， 它 们 所 反映 的 学 生 的 知识 
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水 平 是 不 相等 的 。 由 于 单位 的 意义 不 同 ， 单 位 的 价值 不 相等 ， 
所 以 各 科 的 考试 成 绩 不 能 直接 相 加 而 求 出 总 分 ， 也 不 能 根据 总 
分 求 各 科 平 均 分 。 这 就 决定 了 心理 与 教育 测量 的 量 表 不 是 直接 
的 等 距 量 表 。 

由 于 顺序 量 表 的 参照 点 没有 绝对 零点 ， 而 且 它 的 单位 不 等 
值 ， 大量 的 统计 方法 不 能 直接 应 用 到 上 顺序 量 表 的 分 数 上 去 ， 因 
此 在 理论 研究 和 实际 应 用 工作 中 受到 极 大 的 限制 。 为 了 克服 这 
些 缺 陷 ， 心 理 与 教育 测量 学 家 希望 将 顺序 量 表 上 得 到 的 分 数 转 
化 到 等 距 量 表 上 去 解释 。 也 就 是 说 ， 和 希望 采用 统计 方法 把 上 顺序 
量 表 的 分 数 转换 到 具有 相等 单位 的 等 距 量 表 上 。 为 此 ， 教 育 与 
心理 测 最 学 家 做 了 大 量 的 研究 工作 ， 收 到 了 一 定 的 成 效 。 目 
前 ， 大 多 数 心理 与 教育 测量 的 分 数 解释 工作 是 在 等 距 量 表 上 进 
行 的 ， 但 是 ， 很 难说 这 项 工作 在 本 质 上 改变 了 教育 与 心理 测量 
分 数 单位 的 不 等 值 性 。 


四 、 心 理 与 教育 测量 中 的 测验 


如 前 所 述 ， 心 理 与 教育 测量 工作 是 在 测验 上 完成 的 ， 而 测 
验 是 由 有 关 领 域 的 专家 经 过 长 期 的 编制 、 试 用 、 修 订 、 完 善 而 
逐渐 形成 的 标准 化 测量 工具 。 对 于 什么 是 测验 的 问题 ， 学 术 界 
尚未 取得 一 致 的 意见 ， 被 多 数 测量 学 家 所 接受 的 定义 是 美国 心 
理 测量 学 家 阿 娜 斯 塔 西 {A" Anastasi) 提出 的 定义 。 她 认为 ， 
“心理 测验 实质 上 是 对 行为 样本 的 客观 的 和 标准 化 的 测量 。 根 
据 这 一 定义 ， 编 制 一 个 测验 应 当 具备 下 列 4 个 基本 条 件 。 
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(一 ) 行为 样本 

抽样 是 测量 学 上 普遍 采用 的 方法 。 例 如 ， 在 水 质 检 验 中 ， 
检验 人 员 在 要 检验 的 水 中 抽取 一 小 部 分 样 水 予以 测定 ,根据 对 
样 水 的 测定 结果 推断 整个 水 的 质量 ; 在 医疗 验 血 中 ， 医 生 也 只 
是 抽取 很 少 一 部 分 血样 进行 测定 ， 并 根据 此 测定 结果 推断 其 整 
体 的 情况 。 从 整体 中 抽取 出 来 作为 测量 对 象 的 一 组 样品 叫 作 样 
本 。 如 上 所 说 ， 心 理 与 教育 测 最 是 间接 测量 ， 是 通过 测量 人 的 
外 部 行为 来 推断 人 的 心理 特质 和 教育 成 就 。 但 人 的 行为 是 多 种 
多 样 的 ， 要 把 人 的 所 有 行为 都 作为 测量 的 对 象 显然 是 不 可 能 
的 ， 也 是 不 必要 的 。 为 此 ， 测量 学 家 的 做 法 是 从 人 的 大 量 行 为 
中 抽取 与 欲 测 量 的 心理 特质 直接 有 关 的 一 组 行为 进行 测量 ,并 
依据 对 这 一 级 行为 的 测量 结果 推断 其 心理 特质 和 教育 成 就 。 这 
一 组 被 抽取 出 来 的 、 作 为 直接 的 测量 对 象 的 行为 即 蚌 行 为 样本 
(sample of behavior)。 例 如 ， 我们 要 知道 学 生 的 数学 运算 能 力 
的 高 低 ， 就 可 能 选择 若干 有 代表 性 的 数学 问题 ， 要 求学 生 解答 
这 些 问 题 。 学 生 在 解答 这 些 数 学 问题 时 的 行为 就 是 我 们 要 测量 
的 直接 对 象 ， 当 我 们 根据 这 一 组 行为 来 推断 其 整体 的 数学 运算 
能 力 时 ， 这 一 组 行为 就 是 数学 运算 能 力 的 行为 样本 ,而 引起 学 
生 行 为 的 那些 数学 运算 问题 就 是 测验 。 所 以 ,简单 地 说 ,测验 
就 是 引起 特定 行为 的 工具 。 显 然 ， 所 抽取 的 行为 样本 必须 是 能 
够 给 测量 人 员 握 供 有 意义 的 、 足 以 反映 个 人 特定 心理 特质 的 一 
组 行为 ， 而 要 做 到 这 一 点 ， 首 先 要 使 构成 测验 的 项 目 与 要 测量 
的 行为 有 关 。 


(二 ) 标准 化 
标准 化 (standardization) 是 编制 测验 的 一 个 重要 步骤 ， 
也 是 测验 的 重要 条 件 。 为 了 使 接受 测量 的 不 同 个 人 所 获得 的 分 
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数 有 比较 的 可 能 性 ， 测 验 的 条 件 必 须 对 所 有 的 个 人 都 是 相同 
的 。 在 相同 的 测验 情境 中 ， 唯 一 的 自 变量 是 正在 接受 测量 的 个 
人 的 心理 特质 ， 这 样 ， 测 量 结果 才 具 有 客观 性 。 测 验 的 标准 化 
就 是 指 测验 的 编制 、 实 施 、 记 分 以 及 测量 分 数 的 解释 的 程序 的 
一 致 性 。 测 验 的 标准 化 需要 具备 下 列 条 件 : 

1. 测验 内 容 的 标准 化 

标准 化 的 首要 前 提 ， 是 所 有 接受 测量 的 个 人 实施 相同 的 或 
等 值 的 测验 内 容 。 测 验 内 容 不 朵 ， 所 测 得 的 结果 便 没 有 可 比较 
的 基础 。 

2. 施 测 条 件 的 标准 化 

标准 化 的 第 二 个 条 件 。 是 所 有 接受 测量 的 个 人 必须 在 相同 
的 施 测 条 件 下 接受 测验 。 其 中 包括 : QD 相同 的 测验 情境 。@ 相 
同 的 指导 语 。@ 相 司 的 测验 时 限 。 

3. 评分 规则 的 标准 化 

评分 规则 的 标准 化 要 求 评分 结果 具有 客观 性 ， 只 有 当 评 分 
的 结果 具备 了 客观 性 ， 才 能 将 测量 分 数 的 差异 归 之 于 个 人 心理 
特质 和 知识 水 平 的 差异 。 为 此 ， 测 验 中 所 制定 的 评分 规则 要 足 
以 使 不 同 的 评分 人 的 评分 结果 保持 最 大 程度 的 一 致 。 

4. 测验 常 模 的 标准 化 

编制 测验 的 一 个 重要 步骤 是 编制 测验 的 常 模 (norm)。 在 
心理 与 教育 测量 领域 ， 由 于 测量 分 数 没有 绝对 的 零点 作为 参照 
点 ， 所 以 ,孤立 地 看 待 一 个 测量 分 数 是 没有 什么 意义 的 ， 必 须 
将 该 测量 分 数 与 他 人 的 测量 分 数 相 比 较 ， 才 显示 出 它 的 意义 。 
常 模 的 功能 就 是 给 解释 测量 分 数 提供 一 个 可 比较 的 参照 点 。 在 
许多 情况 下 ， 常 模 是 一 组 有 代表 人 性 的 被 试 群体 的 平均 测验 分 
数 。 这 个 平均 测验 分 数 表 示 的 是 普通 人 的 一 般 状 况 。 解 释 个 人 
的 测量 分 数 就 是 将 这 一 分 数 与 常 模 分 数 相 比较 ， 看 该 分 数 高 于 
或 低 于 常 模 分 数 多 少 。 例 如 ， 在 能 力 测量 领域 ， 如 果菜 一 个 人 
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的 测量 分 数 高 于 常 模 分 数 ， 则 此 人 的 能 力 水 平 高 于 普通 人 的 平 
均 水 平 ; 相反 ， 如 果 某 一 个 人 的 测量 分 数 低 于 常 模 分 数 ， 则 此 
人 的 能 力 水 平 低 于 普通 人 的 平均 水 平 。 

常 模 既 然 是 一 组 有 代表 性 的 被 试 群体 的 平均 测验 分 数 ， 那 
么 编制 测验 常 模 的 关键 是 要 抽取 有 代表 性 的 被 试 样 本 ， 它 要 求 
按照 科学 的 抽样 原则 抽取 样本 中 的 每 一 个 个 体 。 

这 里 需要 特别 说 明 的 是 ， 不 要 把 常 模 的 概念 与 我 们 通常 理 
解 的 标准 的 概念 混淆 起 来 。 标 准 指 的 是 理想 上 期 望 达到 的 程 
度 ， 而 常 模 指 的 是 被 试 群体 实际 达到 的 程度 。 以 常 模 为 参照 编 
制 的 测验 叫 常 模 参 照 油 验 ， 以 标准 为 参照 编制 的 测验 叫 目 标 参 
照 测验 或 标准 参照 测验 。 在 此 主要 讨论 常 模 参 照 测验 ,但 也 涉 
及 到 目标 参照 测验 。 


《三 ) 难度 或 应 答 率 

在 编制 教育 成 就 测验 和 各 种 形式 的 能 力 测验 时 ， 一 个 很 重 
要 的 指标 是 确定 项 目的 难度 值 。 测 验 项 目 是 按照 其 难度 值 由 简 
单 到 复杂 编排 的 ， 而 项 目的 难度 是 通过 计算 被 试 答对 某 一 项 目 
的 人 数 比 例 来 确定 的 。 例 如 ， 比 内 一 西北 智力 量 表 〈1905) 中 
的 30 道 题目 就 是 根据 50 个 智力 正常 儿童 和 少数 智力 落后 儿童 
接受 该 测验 的 结果 而 编排 的 。 这 是 最 早 用 客观 方法 决定 项 目 难 
度 的 尝试 。 难 度 太 低 或 太 高 都 不 能 有 效 地 将 不 同 水 平 的 个 体 区 
分 开 来 ， 从 而 也 就 不 能 保证 测验 的 科学 性 。 

编制 诸如 态度 油 验 、 兴 趣 测 验 、 性 格 测验 不 存在 难度 问 
题 ， 却 有 一 个 对 项 目的 应 答 率 问题 。 如 果 在 某 些 项 目 上 ， 管 
“是 ”或 答 “ 否 ”的 被 试 人 数 太 多 或 太 少 ， 则 同样 不 能 有 效 地 
区 分 不 同 态度 、 兴 趣 或 性 格 的 人 。 而 应 答 率 也 必须 通过 客观 的 
统计 计算 确定 。 
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《四 ) 信和 度 和 效 度 

评价 一 个 测验 是 否 科 学 的 重要 指标 是 它 的 信和 度 和 效 度 。 信 
度 指 的 是 一 个 测验 的 可 擎 性 ， 即 用 同一 测验 多 次 测量 同一 团体 
所 得 结果 之 间 的 一 致 性 程度 。 我 们 用 锅 片 卷 尺 去 测量 一 木 杆 的 
长 度 ， 所 得 结果 是 可 车 的 ， 因 为 无 论 是 由 一 个 人 数 次 测量 ， 还 
是 分 别 由 数 个 人 去 测量 ， 所 测 得 的 结果 都 是 高 度 一 致 的 。 如 果 
改 用 橡皮 软 斥 去 测量 木 杆 ， 一 个 人 多 次 测量 或 多 人 测量 的 结果 
就 难得 高 度 一 致 。 这 就 是 说 ， 橡 皮 软 尺 这 种 测量 工具 的 信和 度 不 
高 。 由 此 可 见 ， 信 和 度 是 衡量 测验 科学 性 的 最 基本 的 指标 。 效 度 
指 的 是 一 个 测验 的 有 效 性 ， 即 一 个 测验 在 多 大 程度 上 能 够 测 到 
它 所 要 测量 的 心理 特质 。 如 果 一 个 测验 所 测 得 的 不 是 它 所 要 测 
得 的 特质 ， 则 这 个 测验 就 是 无 效 的 。 例 如 ， 智 力 测验 所 要 测 得 
的 特质 应 该 是 智力 ， 如 果 一 个 智力 测验 测 到 的 不 是 智力 ， 而 是 
知识 。 那么 无 论 它 的 信 度 有 多 高 ， 这 个 智力 测验 对 于 测量 智力 
都 是 无 效 的 。 由 此 可 见 ， 效 度 是 衡量 测验 科学 性 的 最 重要 的 
指标 。 
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一 、 心 理 与 教育 测验 的 种 类 


为 了 满足 心理 与 教育 测量 工作 的 需要 ， 近 百年 来 ， 测 量 学 
家 编制 了 大 量 的 测验 ， 涉 及 到 各 个 方面 和 各 个 领域 。 这 就 有 必 
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要 对 各 种 各 样 的 测验 进行 分 类 。 采 用 的 分 类 标准 不 同 ， 就 会 有 
不 向 的 测验 分 类 系统 。 


(一 ) 按 测量 对 人 象 所 作 的 分 类 

1. 智力 测验 

关 在 测量 个 人 的 智力 (一 一 般 认 知 能 力 ) 水 平 的 高 低 。 这 是 
心理 测量 最 里 涉 及 的 领域 ， 也 是 目前 发 展 得 相对 成 熟 的 一 种 测 
验 。 国 内 外 比较 著名 的 智力 测验 有 “斯 坦 福 一 比 内 量 表 ”"、“ 韦 
克 斯 勒 智力 量 表 ”"、“ 瑞 文 推理 测验 ”等 等 。 

2. 能 力 怖 向 测验 

旨 在 测量 个 人 的 潜在 的 才能 ， 预测 个 人 的 能 力 发 展 倾向 。 
能 力 倾 向 测验 一 般 可 分 为 丙种: 一 种 是 一 般 能 力 倾向 测验 ， 测 
量 个 人 多 方面 的 潜能 ; 另 一 种 是 特殊 能 力 倾向 测验 ， 测 量 个 人 
的 特殊 潜在 能 力 ， 如 音乐 能 力 倾向 测验 、 机 械 能 力 倾向 测 
验 等 。 

3. 成 就 测验 

旨 在 测量 个 人 在 接受 教育 后 的 学 业 成 就 。 成 就 测验 有 两 种 
类 型 : 一 是 学 科 成 就 测验 ,测量 受 教育 者 在 某 一 科目 上 的 学 习 
成 就 ; 二 是 综合 成 就 测验 ， 测 量 受 教育 者 在 各 学 科 上 的 综合 学 
业 成 就 。 

4. 人 格 测验 

旨 在 测量 个 人 在 诸如 兴趣 、 态 度 、 动 机 、 气 质 、 性 格 等 方 
面 的 心理 特征 。 由 于 人 格 一 词 的 含义 太 广 泛 ， 一 个 具体 的 测验 
不 可 能 含 盖 如 此 广泛 的 内 容 ， 所 以 常常 有 偏重 ， 也 有 测量 单一 
人 格 测验 又 主要 分 为 

一 类 是 自 陈 人 格 问 卷 ， 比 较 著名 的 有 “明尼苏达 多 相 人 
格调 查 表 ”、“ 卡 特 尔 16PF 测验 ”、“ 艾 森 克 人 格 问 卷 ” 等 ; 另 
类 是 投射 测验 ， 恕 “ 罗 夏 克 黑 迹 测 验 ”、“ 主 题 统 觉 测验 ”等 
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《二 ) 按 测量 方式 所 作 的 分 类 

1. 个别 测验 

对 于 有 些 测验 ， 同 一 主 试 在 同一 时 间 内 只 能 测量 一 个 被 
试 ， 所 以 被 称 为 个 别 测验 。 例 如 “斯 坦 福 一 比 内 量 表 ”、“ 韦 克 
斯 勤 智力 量 表 ” 等 智力 测验 以 及 “ 罗 夏 克 墨 迹 测验 ”"、“ 主 题 统 
觉 测验 ”等 人 格 测验 均 属 个 别 测验 。 个 别 测验 有 许多 优点 ， 一 
是 主 试 对 被 试 的 做 题 行为 有 仔细 的 观察 ， 有 机 会 获得 测量 分 数 
之 外 的 信息 ; 二 是 主 试 与 被 试 面对面 交流 的 机 会 更 多 ， 容 易 与 
被 试 建立 起 融洽 的 合作 关系 ; 三 是 对 于 一 些 特殊 被 试 〈 如 幼 
儿 、 文 盲 )， 只 能 采用 个 别 测量 ， 以 便 主 试 代替 被 试 记录 其 行 
为 反应 。 但 个 别 测验 也 有 它 的 缺点 ， 一 是 费时 间 ， 难 以 在 短 时 
辣 收 集 大 量 的 测量 资料 ; 二 是 测验 手续 比较 复杂 ， 需 经 过 较 高 
水 平 训练 的 人 担任 主 试 。 

2. 团体 测验 

对 于 有 些 测 验 ， 同 一 主 试 在 同一 时 间 内 能 够 测量 许多 被 
试 ， 所 以 被 称 为 团体 测验 。 例 如 ,“ 瑞 文 推理 测验 ”、“ 陆 军 甲 、 
乙 种 团体 智力 测验 ”以 及 绝 大 多 数 自 陈 人 格 问 卷 均 属 于 团体 测 
验 。 团 体 测 验 的 优点 是 节省 时 间 ， 可 以 在 短期 内 收集 到 大 量 的 
测量 数据 ， 所 以 在 诸如 教育 、 人 事 选 拔 、 团 体 比 较 研 究 中 被 广 
证 使 用 。 它 的 缺点 是 由 于 同一 时 间 内 接受 测量 的 被 试 多 ， 不 易 
有 效 地 控制 被 试 的 行为 ， 容 易 产 生 测量 误差 ， 从 而 影响 测量 的 
信和 度 和 效 度 。 

团体 测验 可 用 于 个 别 测量 ,但 个 别 测验 不 能 用 于 团体 
测量 。 
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(三 》 按 测验 内 容 的 形式 的 分 类 

1. 文字 〈 纸 笔 ) 测验 

有 些 测验 的 内 容 是 通过 文字 的 形式 表现 的 ， 被 试 也 用 文字 
作答 ， 所 以 被 称 为 文字 测验 ， 也 叫 纸 笔 测 验 。 此 种 测验 实施 起 
来 方便 ， 团 体 测验 多 采用 此 种 方式 编制 。 其 缺点 是 容易 受 被 斌 
的 文化 背景 的 影响 ， 从 而 降低 测验 的 效 度 。 

2. 非 文字 《操作 〉 测 验 

有 些 测验 的 内 容 是 通过 图 形 、 仪 器 、 工 具 、 实 物 、 模 型 等 
形式 表现 的 ， 被 试 通过 指认 、 手 工 操作 向 主 试 提供 答案 ， 所 以 
被 称 为 非 文 字 测验 或 操作 测验 。 此 种 测验 不 受 或 少 受 文化 背景 
的 影响 ， 因 此 ， 在 设计 所 谓 “ 文 化 公平 测验 ”时 常 采 用 这 种 方 
式 。 同 时 ， 也 适用 于 测量 学 前 儿童 及 文盲 的 心理 特质 。 但 非 文 
字 测 验 常 局 限于 个 别 测量 ， 在 时 间 上 不 经 济 。 

有 些 测验 〈 如 “斯 坦 福 一 比 内 量 表 "、“ 韦 克 斯 蒜 智 力量 
表 ”) 既 包括 了 文字 测验 的 项 目 ， 也 包括 了 损 作 测验 的 项 目 。 


(四 ) 按 测验 功能 所 作 的 分 类 

1. 成 就 测验 与 预测 测验 

成 就 测验 的 目的 是 测量 个 人 在 某 一 领域 已 经 达到 的 实际 成 
就 。 而 预测 测验 的 目的 在 于 测量 个 人 在 未 来 某 一 方面 获得 成 功 
的 可 能 性 。 

2. 难度 测验 与 速度 测验 

难度 测验 的 功能 在 于 识别 个 人 能 够 达到 的 最 高 水 平 。 通 常 
包括 各 种 难度 不 等 的 项 目 ， 其 中 有 一 些 极 难 的 项 目 ， 由 易 到 难 
排列 ， 供 各 种 不 同 水 平 的 被 试 作答 。 速 度 测验 的 功能 在 于 识别 
个 人 微 题 的 最 快速 度 。 通 常 包括 大 量 相对 容易 的 项 目 ， 要 求 被 
试 在 严格 限定 的 时 间 内 作答 ， 被 试 在 规定 的 时 间 内 答对 的 题 数 
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越 多 ， 则 表示 他 的 反应 越 快 。 

3. 描述 测验 与 诊断 测验 

猴 述 测验 的 功能 在 于 通过 测量 来 措 述 某 - 特定 群体 在 某 一 
心理 特质 上 的 一 般 状 况 。 例 如 ， 心 理学 上 关于 智力 发 展 趋势 的 
研究 、 关 于 智商 在 不 同年 龄 阶段 的 稳定 性 的 研究 、 关 于 智力 水 
平 与 学 业 成 就 关系 的 研究 、 关 于 男女 智力 差异 的 研究 等 都 是 通 
过 运用 智力 测验 而 完成 的 。 这 些 测验 研究 的 目的 都 是 为 了 描述 
和 说 明 一 个 实际 问题 。 诊 断 测验 的 功能 是 对 个 人 的 问题 行为 及 
其 原因 进行 诊断 。 这 种 测验 通常 在 教育 和 临床 治疗 领域 被 广泛 
应 用 。 例 如 ， 学 生 学 业 成 绩 不 良 的 原因 可 能 是 多 种 多 样 的 ， 究 
况 是 什么 原因 ， 需 要 运用 诊断 测验 才能 弄 清楚 。 


(五 ) 按 评价 所 参照 的 标准 分 类 

1. 常 模 参 照 测验 

常 模 参 照 测验 将 被 试 水 平 与 常 模 相 比 较 ， 氛 评价 被 试 在 团 
体 中 的 相对 地 位 为 目的 。 

2. 目标 参照 测验 

目标 参照 测验 将 被 试 水 平 与 一 绝对 标准 相 比 较 ， 以 评价 被 
试 有 无 达到 该 标准 为 目的 ， 也 称 标准 参照 测验 。 

3. 潜力 参照 测验 

潜力 参照 测验 将 被 试 水 平 与 自身 潜力 相 比较 ， 以 评价 被 试 
有 无 充分 发 挥 自身 潜力 为 目的 。 


二 、 心 理 与 教育 测验 的 功能 


心理 与 教育 测验 经 过 将 近 100 年 的 发 展 ， 现 已 被 广泛 地 应 
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用 于 科学 研究 和 教育 、 临 床 、 人 才 选 拔 等 实践 领域 ， 并 发 挥 出 
日 益 重要 的 作用 。 概 括 地 说 ， 心 理 与 教育 测验 的 功能 主要 表现 
在 两 大 方面 。 


(一 ) 理论 研究 功能 

1. 收集 研究 资料 

在 心理 学 和 教育 学 的 许多 研究 工作 中 ， 都 需要 通过 测验 来 
获得 第 一 手 资 料 。 例 如 ， 为 了 查 明 影响 学 生 学 业 成 绩 的 心理 因 
素 ， 我 们 需要 运用 智力 测验 、 学 习 能 力 代 向 测验 、 成 就 动机 测 
验 、 学 习 兴 趣 测 验 、 人 格 测验 和 学 业 成 就 测验 ， 通 过 计算 各 种 
心理 六 素 的 测量 分 数 与 学 业 成 就 测验 的 分 类 之 间 的 相关 系数 进 
行 回归 分 析 ， 然 后 根据 测验 所 获得 的 实证 资料 做 出 科学 结论 。 

2. 建立 和 检验 理论 假设 

在 心理 学 的 研究 中 ， 通 常 需 要 根据 已 有 的 测验 研究 成 果 提 
出 理论 假设， 然后 通过 测验 进一步 检验 这 个 假设 。 在 这 方面 最 
为 突出 的 是 关于 智力 结构 和 人 格 结构 的 理论 研究 。 不 论 是 斯 皮 
尔 曼 的 智力 二 因素 理论 ， 还 是 瑟 斯 顿 的 智力 群 因素 理论 ， 还 站 
吉尔 福特 的 智力 三 维 结构 理论 都 是 建立 在 对 智力 测验 结果 的 因 
素 分 析 基 础 上 的 。 这 些 智力 理论 来 源 于 智力 测验 ， 反 过 来 又 成 
为 进一步 编制 智力 测验 的 理论 基础 。 在 人 格 结构 的 研究 中 ， 如 
卡特 尔 的 16 种 人 格 因素 结构 理论 、 区 森 克 的 人 格 维度 理论 也 
都 是 在 对 人 格 测验 结果 作 反 复 的 因素 分 析 的 基础 上 提出 来 的 。 
在 教育 研究 中 ， 例 如 要 比较 各 种 教育 措施 的 实际 效果 ， 就 需要 
运用 教育 测验 获得 测量 分 数 ， 并 对 分 数 进行 统计 比较 。 从 80 
年 代 开 始 ， 在 理论 研究 中 ， 有 的 学 者 特别 强调 非 智力 因素 在 学 
生 学 习 活动 中 的 重要 作用 。 但 在 未 得 到 实证 研究 结果 的 证 明之 
前 ,这 种 观点 只 能 是 一 种 理论 假设 。 近 几 年 来 ， 一些 测量 学 工 
作者 对 这 个 假设 进行 了 多 方面 的 测验 研究 ,发现 有 些 非 智力 因 
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素 对 学 生成 就 具有 明显 影响 ， 而 另 一 些 因素 的 影响 则 不 明显 。 
这 些 研究 为 理论 上 的 进一步 探讨 提供 了 重要 的 资料 。 

3. 实验 分 组 

心理 与 教育 测验 还 可 以 和 实验 方法 结合 起 来 运用 于 研究 工 
作 中 。 在 一 些 实验 心理 学 的 研究 课题 中 ， 为 了 考察 不 同 自 变 量 
对 被 试 因 变 量 的 不 同 影响 ,通常 选择 两 组 被 试 进行 比较 研究 ， 
这 时 需要 控制 与 实验 变量 无 关 的 被 试 的 其 他 心理 变量 {例如 智 
力 水 平 )， 使 两 组 被 式 实 现 等 组 化 《如 使 他 们 的 智力 水 平 相 
当 )， 心 理 与 教育 测验 (如 智力 测验 ) 可 以 满足 实验 设计 中 的 
上 述 要 求 。 有 时 ， 我 们 需要 研究 具有 不 同心 理 特 征 的 被 试 在 完 
成 心理 实验 任务 过 程 中 的 差异 。 在 这 种 情况 下 ， 我 们 首先 需要 
通过 心理 测验 识别 不 同心 理 特征 的 被 试 , 然后 分 成 两 个 极端 组 
进行 比较 实验 。 例 如 ， 要 研究 内 向 的 人 和 外 向 的 人 在 场 独立 性 
实验 中 的 差异 ， 就 可 以 先 运用 内 外 向 测验 选择 出 典型 外 向 的 被 
试 和 典型 内 向 的 被 试 ， 然 后 让 他 们 完成 场 独 立 性 的 实验 任务 ， 
从 而 比较 他 们 是 否 在 场 独立 性 方面 存在 差异 。 


《二 ) 实际 应 用 功能 

1. 选拔 人 才 

在 教育 、 企 业 、 军 事 、 艺 术 、 和 体育 、 人 事 等 部 门 ， 人 们 经 
常 面临 着 选拔 人 才 的 问题 ， 也 就 是 需要 识别 那些 最 有 可 能 获得 
成 功 的 人 。 在 传统 社会 里 ， 选 氢 人 才 主 要 依靠 少数 人 的 经 验 ， 
这 显然 是 一 种 非常 原始 的 选 才 方 式 。 现 代 社 会 各 行 各 业 需 要 大 
量 不 同类 型 、 不 同 层次 的 人 才 ， 那 种 伯乐 识 马 式 的 选 才 方式 显 
然 不 能 适应 现代 社会 对 人 才 的 需求 。 心 理 与 教育 测验 的 发 展 为 
大 规模 地 选拔 人 才 提 供 了 可 能 。 心 理 测量 学 家 根据 对 各 种 工作 
的 性 质 和 特点 的 分 析 ， 寻 找 出 适应 特定 工作 要 求 的 心理 模式 ， 
然后 根据 这 种 模式 编制 测验 ， 借 此 识别 适合 从 事 这 种 工作 的 
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人 。 这 就 不 仅 大 大 提高 了 选 才 的 效率 ， 而 且 可 以 避免 选 才 过 程 
中 的 各 种 人 为 因素 的 影响 ， 从 而 提高 选 才 的 科学 性 和 客观 性 。 
美国 在 1942 年 第 二 次 世界 大 战 期 间 将 心理 测验 应 用 于 飞行 员 
的 选拔 ， 结果 淘汰 率 由 原来 的 65% 下降 到 36% 。 心 理 测验 在 
大 才 选 拔 中 的 价值 由 此 可 见 一 班 。 

2. 人 员 安 置 

随 着 社会 化 大 生产 的 发 展 ， 人 事 分 工 越 来 越 细 ， 不 同 的 工 
种 需要 不 同 的 人 来 做 ， 不 同 的 人 适合 做 各 种 不 同 的 工种 ， 借 助 
于 心理 与 教育 测验 可 以 使 人 与 事 做 到 最 佳 分 配 ， 做 到 人 尽 其 
才 ， 提 高 劳动 生产 率 。 在 教育 领域 ， 可 以 借助 于 心理 与 教育 测 
验 的 资料 ， 作 为 按 能 力 和 成 绩 分 班 的 依据 ， 为 分 类 教育 、 因 材 
施 教 提供 条 件 。 

3. 心理 诊断 

对 于 智力 缺陷 者 和 心理 障碍 者 的 识别 是 推动 心理 测验 发 展 
的 重要 动力 。 直 到 现在 ， 对 各 种 智力 落后 、 精 神 疾 病 和 脑 功能 
障碍 应 用 心理 测验 来 诊断 仍然 是 一 种 重要 的 途径 。 

心理 与 教育 测验 的 诊断 功能 不 只 限于 临床 ， 在 教育 工作 中 
同样 可 以 发 挥 作用 。 例 如 ， 可 以 应 用 测验 发 现 学 生 学 业 成 绩 不 
良 或 社会 适应 不 良 的 原因 ， 查 明 学 习 困 难 或 造成 困难 的 症结 所 
在 ， 从 而 采取 适当 的 帮助 和 补救 措施 。 

4. 描述 评 价 

应 用 心理 与 教育 测验 可 以 对 人 们 在 智力 水 平 、 学 业 成 就 、 
人 格 特点 等 心理 特质 上 的 优势 和 劣势 做 出 描述 和 评价 ， 使 一 个 
人 知道 自己 的 长 处 和 短处 ， 以 便 扬 长 避 短 ， 更 好 地 学 习 、 工 作 
和 生活 。 这 种 评价 既 可 由 他 人 微 出 ， 也 可 由 自己 做 出 ; 既 可 用 
于 评价 学 生 ， 也 可 用 于 评价 教师 ; 既 可 评价 个 人 ， 也 可 评价 
团体 。 
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5. 心理 咨询 

应 用 心理 与 教育 测验 获得 的 资料 ， 可 以 作为 从 事 心理 咨询 
工作 的 依据 。 例 如 ， 综 合成 就 测验 、 智 力 测验 、 能 力 倾 向 济 
验 、 职 业 兴 趣 测 验 和 性 格 测验 的 资料 ， 可 以 就 一 个 人 的 未 来 职 
业 方 向 提供 咨询 意见 ， 以 便 帮 助 来 访 者 做 出 正确 的 职业 选择 。 
利用 人 格 测 验 和 临床 精神 障碍 测验 的 资料 ， 可 以 帮助 来 访 者 收 
善心 理 环境 ， 提 高 心理 适应 的 能 力 。 
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的 素质 要 求 及 道德 准则 


一 、 心 理 与 教育 测量 工作 者 的 素质 要 求 


从 前 面 各 节 的 讨论 中 ， 我 们 可 以 看 到 ， 心 理 与 教育 测量 工 
作 是 一 项 高 度 复杂 和 高 度 专业 的 工作 ， 也 是 一 项 从 理论 到 技术 
尚 不 很 完善 的 工作 。 因 此 ， 只 有 不 断 提高 心理 与 教育 测量 工作 
者 的 专业 素质 ， 才 能 促进 心理 与 教育 测量 工作 没 着 科学 、 健 康 
的 轨道 发 展 。 改 革 开 放 以 来 ， 中 国 心 理 教育 测量 工作 在 从 恢复 
到 发 展 的 同时 ， 也 出 现 了 误 用 、 滥 用 心理 测验 的 现象 。 一 些 地 
方 、 一 些 个 人 随便 使 用 心理 测验 ， 对 测量 结果 乱 加 解释 ， 引 起 
一 些 不 良 影响 。 之 所 以 出 现 这 种 情况 ， 从 根本 上 说 ， 是 测验 的 
使 用 者 缺乏 应 有 的 基本 素质 。 因 此 ， 我 们 认为 有 必要 对 心理 与 
教育 测量 工作 者 提出 一 定 的 素质 要 求 ， 以 便 规 范 专 业 训练 和 有 
关 的 培训 工作 ， 培 养 合格 的 测量 学 工作 者 。 
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(一 ) 心理 与 教育 测量 工作 的 知识 结构 

概括 地 说 ， 心 理 与 教育 测量 工作 者 可 分 为 两 个 不 同 的 层 
次 : 第 一 个 层次 是 专业 研究 工作 者 ， 主 要 从 事 心理 与 教育 测量 
学 的 理论 研究 工作 和 各 种 测验 的 编制 工作 ; 第 二 个 层次 是 实际 
应 用 工作 者 ， 主 要 从 事 运 用 心理 与 教育 测验 解决 各 行 各 业 的 实 
际 问题 的 工作 。 不 论 哪 个 层次 的 人 员 都 应 具备 从 事 测量 工作 基 
本 知识 结构 ， 只 是 对 高 层次 的 研究 人 才 的 要 求 更 高 ， 应 当成 为 
该 领域 的 专家 。 总 结 心理 与 教育 测量 发 展 历史 的 经 验 教训 ， 结 
合 中 国 测量 学 界 的 现状 和 未 来 发 展 的 趋势 ， 我 们 认为 心理 与 教 
育 测量 工作 者 应 当 具 各 相应 的 基础 知识 和 专业 知识 。 基 础 知识 
包括 : 普通 心理 学 、 发 展 心理 学 、 教 育 心理 学 等 广泛 的 心理 
学 基本 知识 。@@ 扎 实 的 心理 与 教育 统计 学 的 基本 知识 。 国 教育 
学 的 基本 知识 。 在 专业 知识 方面 ， 除 了 精通 人 格 心 理学 、 智 力 
心理 学 、 变 态 心理 学 、 心 理 与 教育 测量 的 原理 与 技术 等 具有 核 
心地 位 的 专业 知识 外 ， 还 应 根据 自己 的 工作 领域 具备 相应 的 其 
他 专业 知识 。 例 如 ， 在 教育 领域 从 事 教育 测量 工作 的 人 员 应 精 
通 各 个 学 科 的 专业 知识 ; 在 临床 领域 从 事 心理 测量 工作 的 人 员 
除了 具备 基本 的 医学 知识 外 ， 尤 其 应 精通 精神 、 神 经 医学 的 专 
门 知识 ; 在 工业 企业 、 人 束 部 门 从 事 心理 测量 工作 的 人 员 应 懂 
得 组织 人 事 管理 知识 和 有 关 的 技术 知识 ;在 司法 部 门 从 事 心 理 
测量 工作 的 人 员 应 懂得 犯罪 学 、 徘 犯 改造 学 、 犯 罪 心理 学 的 专 
门 知识 等 等 。 总 之 ， 合 理 的 知识 结构 是 保证 心理 与 教育 测量 工 
作 科 学 化 和 专业 化 的 基本 条 件 。 

(二 ) 对 心理 与 教育 测验 的 科学 态度 

人 们 对 心理 与 教育 测验 的 争论 自 测 验 问世 以 来 就 从 未 间断 
过 。 其 极端 的 看 法 是 要 么 高 估 测 验 的 作用 ， 把 它 奉 为 神明 ; 要 
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么 贬低 测验 的 作用 ， 把 它 视 为 江湖 骗术 。 这 两 种 态度 都 是 极其 
错误 的 和 不 科学 的 。 对 此 ， 心 理 与 教育 测量 工作 者 应 有 清醒 的 
认识 。 

从 心理 学 的 发 展 历史 来 看 ， 心 理 测验 是 在 心理 学 思辩 科学 
转向 实验 科学 后 出 现 的。 心理 测 验方 法 既 受 到 心理 实验 方法 的 
影响 ， 又 是 对 实验 方法 的 有 益 补充 。 艺 其 是 在 研究 人 的 较为 复 
杂 和 高 级 的 心理 现象 【如 智力 和 人 格 ) 中 ， 测 验方 法 起 到 了 实 
验方 法 所 无 法 替代 的 作用 。 测 验方 法 在 客观 上 为 心理 学 的 发 展 
和 进步 作出 了 重要 和 贡献， 并 在 众多 的 应 用 领域 发 挥 了 它 的 实际 
作用 。 

但 是 在 另 一 方面 ， 我 们 也 应 当 看 到 ， 心 理 与 教育 测验 无 论 
在 理论 上 还 是 在 技术 上 都 存在 不 少 问题 。 例 如 ， 在 智力 测验 和 
人 格 测验 的 编制 工作 中 ， 人 们 首先 磁 到 的 麻烦 是 对 什么 是 智 
力 、 什 么 是 人 格 的 问题 还 没有 一 个 统一 的 认识 。 在 这 种 情况 
下 ,测验 所 测量 的 结果 究竟 代表 的 是 什么 ?这 是 一 个 伤 人 脑 盘 
的 问题 。 当 然 ， 这 种 情况 在 科学 发 展 史 上 并 不 鲜 见 。 例 如 ， 物 
体重 量 测量 技术 在 万 有 引力 定律 被 发 现 很 早 以 前 就 被 人 们 广泛 
地 应 用 了 ; 物体 温度 的 测量 技术 在 人 们 认识 到 物体 分 子 热 运 动 
加 速 的 原理 之 前 也 被 广泛 地 应 用 了 。 正 是 由 于 杆 秤 和 温度计 的 
发 明和 广泛 应 用 ， 才 推进 了 对 物理 现象 的 研究 ， 发 展 了 物理 学 
理论 。 这 说 明 ， 一 方面 ， 测 量 技术 的 发 展 受 理论 研究 水 平 的 制 
约 ; 另 一 方面 ， 测 量 技术 的 应 用 反 过 来 促进 着 理论 研究 的 扩展 
和 深化 。 在 心理 学 领域 ， 智 力 测验 的 发 展 深化 了 对 智力 本 质 及 
其 结构 的 认识 也 是 人 们 公认 的 客观 事实 。 因 此 ， 心 理 与 教育 测 
量 工作 者 一 方面 要 认识 到 心理 与 教育 测验 是 从 事 心 理学 与 教育 
学 研究 的 一 种 重要 方法 ， 也 是 解决 实际 应 用 问题 的 一 种 重要 的 
辅助 工具 ; 另 一 方面 也 要 充分 考虑 到 目前 的 心理 与 教育 测验 的 
科学 性 还 不 够 高 ， 有 待 于 在 使 用 过 程 中 进一步 改进 和 完善 。 


第 一 章 ”心理 与 教育 测量 概论 .29 。 





测验 起 源 于 对 个 别 差 异 的 测量 ， 但 测验 方法 不 是 鉴别 个 别 
差异 的 唯一 方法 。 如 同心 理学 的 任何 其 他 研究 方法 一 样 ， 测 验 
方法 既 有 它 有 长 处 ， 也 有 它 的 不 足 。 只 有 根据 研究 工作 的 需要 
将 各 种 研究 方法 结合 起 来 才能 对 人 的 心理 现象 获得 相对 全 面 的 
认识 。 在 运用 测验 解决 实际 问题 时 ， 使 用 者 应 当 记 住 测量 结果 
(分 数 ) 只 是 对 人 的 智力 人 格 的 相对 估计 ， 而 不 是 一 个 十 分 精 
确 的 数值 。 在 解释 个 人 测量 分 数 并 以 此 分 数 为 依据 对 个 人 的 未 
来 作 预 测 时 应 当 特 别 小 心 谨慎 。 


二 、 心 理 与 教育 测量 工作 者 的 道德 准则 


从 事 每 一 种 职业 都 应 遵守 其 特定 的 职业 规范 和 道德 准则 。 
心理 与 教育 测量 工作 者 应 自觉 亲 守 中 国 心理 学 会 于 1993 年 在 
《心理 学 报 》 第 2 期 颁布 的 《心理 测验 管理 条 例 (试行 )》 和 
《心理 测验 工作 者 的 道德 准则 》( 见 本 书 附录 一 和 附录 二 ) 的 规 
定 。 这 里 结合 中 国 心理 与 教育 测量 的 实际 作 些 阐述 。 


(一 ) 测验 的 保密 和 控制 使 用 

心理 与 教育 测量 工具 需要 保密 ， 对 测验 的 占有 范围 需要 控 
制 。 这 本 是 测量 学 上 的 常识 。 不 过 ， 对 于 初学 者 ， 我 们 仍 有 必 
要 说 明 保 密 和 控制 使 用 测验 的 理由 。 

对 测验 保密 是 为 了 保证 测验 的 价值 ， 防 止 测验 失效 。 在 实 
施 测 验 时 ， 人 们 经 常 磁 到 类 似 这 样 的 情况 : 一 所 小 学 尝试 用 智 
为 测验 对 新 人 学 儿童 的 智力 水 平 进行 识别 ， 以 此 作为 分 班 和 因 
材 施 教 的 参考 依据 。 有 的 家 长 为 了 使 自己 的 孩子 能 够 进入 理想 
的 班级 ， 找 到 心理 测验 工作 者 ， 说 : “让 我 的 孩子 先 做 做 这 个 
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测验 行 吗 ? 我 希望 他 能 够 测 到 一 个 好 分 数 ， 能 进入 一 个 好 的 班 
级 。” 假 如 测验 工作 者 满足 了 家 长 的 要 求 ， 那 么 ， 这 个 测验 对 
于 鉴别 这 个 儿童 的 智力 水 平 就 毫 无 价值 了 。 

当然 ， 对 测验 内 容 的 保密 ， 并 不 意味 着 不 需要 对 受 测 者 和 
一 般 的 公众 介绍 关于 测验 的 知识 。 但 这 种 介绍 的 目的 应 限于 ， 
破除 对 测验 的 神秘 感 ; @ 了 解 油 验 的 一 些 技术 和 方法 ; 加 熟 
悉 测 验 的 程序 和 手续 ， 消 除 受 测 者 的 紧张 和 焦虑 。 

为 了 保证 测验 的 保密 性 , 《心理 测验 管理 条 例 (试行 )》 规 
定 : 修订 与 出 售 他 人 所 编制 的 心理 测验 时 ， 必 须 首 先 征 得 该 测 
验 的 主管 单位 或 作者 的 同意 ， 印 制 、 发 行 与 出 售 心理 测验 器 材 
的 机 构 应 到 中 国 心理 学 会 心理 测量 专业 委员 会 登记 ， 并 只 能 将 
测验 器 材 售 于 具有 测验 使 用 资格 者 ;为 了 保证 测验 的 科学 性 和 
实用 价值 ， 标 准 化 测验 的 内 容 与 器 材 不 得 在 非 专业 刊物 上 发 
表 。( 心 理 测验 工作 者 的 道德 准则 》 中 也 规定 ;为 维护 心理 测 
验 的 有 效 性 ， 凡 规定 不 宜 公 开 的 心理 测验 内 容 、 器 材 、 评 分 标 
准 以 及 常 模 等 ， 均 应 保密 。 
“” ”所谓 对 测验 的 控制 使 用 ， 是 指 并 非 所 有 的 人 都 可 以 接触 和 
使 用 测验 ， 测 验 的 使 用 者 必须 是 经 过 专业 训练 和 具有 一 定 资格 
的 人 员 。 对 测验 之 所 以 要 控制 使 用 ， 是 为 了 保证 测验 的 实施 和 
对 测验 分 数 的 解释 既 做 到 合 平 科 学 ,又 对 受 测 者 未 来 的 成 长 有 
益 。 在 测验 工作 中 ， 人 们 也 常 碰 到 类 似 这 样 的 情况 ， 一 个 女 青 
年 愁眉 苦 验 地 来 找 心理 咨询 工作 者 ， 诉 说 : “有 人 给 我 做 了 一 
个 人 格 测验 ， 说 我 的 神经 质 分 数 高 。 此 后 ， 我 就 经 常 心神 不 
宁 ， 寝食 不 安 。” 显 然 ， 这 是 由 于 测验 人 员 缺 乏 专业 知识 ， 对 
测验 结果 的 解释 不 慎 ， 给 受 测 者 造成 的 心理 负担 。 这 样 的 解释 
不 仅 无 助 于 克服 受 洞 者 的 神经 质 倾向 ， 而 且 会 加 重 这 种 倾向 。 

为 了 保证 对 测验 的 控制 使 用 ，《 心 理 测验 管理 条 例 〈 试 
行 )》 对 测验 使 用 人 员 的 资格 作 了 规定 : 心理 专业 本 科 以 上 
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学 历 者 。 办 在 心理 测量 专家 的 指导 下 ， 具 有 两 年 以 上 测验 使 用 
经 验 者 。@ 经 过 心理 测量 培训 班 的 专门 训练 并 获得 资格 认定 书 
者 。 其 中 资格 认定 书 被 分 为 两 种 :单项 资格 认定 书 和 多 项 资格 
认定 书 。 同 时 ， 《心理 测 验 工作 者 的 道德 准则 》 对 测验 分 数 的 
解释 原则 也 作 了 规定 : 心理 测验 工作 者 在 介绍 测验 的 效能 时 ， 
必须 提供 真实 和 准确 的 信息 ， 吉 免 感情 开 事 、 虚 假 断 言 和 曲 
解 ; 应 以 正确 的 方式 将 所 测 结果 告知 被 测 者 或 有 关 人 员 ， 并 提 
供 有 益 的 帮助 与 建议 。 


《二 ) 测验 中 个 人 隐私 的 保护 

在 测验 工作 中 ,尤其 是 人 格 测验 工作 中 经 常 遇 到 的 一 个 不 
可 忽视 的 问题 是 侵犯 受 测 者 的 个 人 隐秘 问题 。 例 如 ， 在 编制 关 
于 情绪 、 动 机 或 态度 等 测验 时 ， 其 中 有 的 内 容 都 会 涉及 到 人 们 
的 家 庭 关 系 、 内 心 冲 突 、 私 人 生活 等 问题 。 在 日 常生 活 中 ， 人 
们 一 般 不 愿意 向 别人 遗 圳 这些 事 情 ， 而 在 测验 条 件 下 ,为 了 寻 
求 帮助 或 配合 测验 ， 很 可 能 表露 出 来 。 这 种 情况 在 能 力 测验 中 
同样 存在 。 因 为 任何 智力 的 、 能 力 的 或 成 就 的 测验 都 会 显示 出 
一 个 人 的 某 种 缺陷 ， 而 在 一 般 情况 下 ， 人 们 是 不 愿意 透露 这 
些 缺 陷 的 。 即 使 在 测验 条 件 下 ， 受 测 者 也 会 产生 顾虑 。 在 这 种 
情况 下 ， 保 护 受 测 者 的 个 人 隐私 就 成 为 测验 工作 者 的 一 项 重要 
的 责任 。 为 此 ， 测 验 工作 者 应 当 采 取 适 当 的 保护 措施 : 一 是 只 
有 在 必要 的 情况 下 ， 测 验 工作 者 才能 询问 个 人 的 隐私 ， 凡 是 与 
测验 目的 无 关 的 方面 就 不 应 涉及 ; 二 是 对 受 测 者 保证 为 其 保 
审 ， 并 在 实际 上 为 受 测 者 严守 秘密 ; 三 是 凡 测 验 中 必需 涉及 的 
个 人 隐私 应 事先 征 得 受 测 者 本 人 或 其 他 有 关 人 员 的 同意 。 

为 了 保证 测验 中 个 人 隐私 不 受 侵 犯 , 《心理 测验 工作 者 的 
道德 准则 》 规定: 心理 测验 工作 者 应 尊重 被 测 者 的 人 格 ， 对 测 
量 中 获得 的 个 人 信息 要 加 以 保密 ， 除 非 对 个 人 或 社会 可 能 造成 
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危害 的 情况 ， 才 能 告知 有 关 方 面 。 


练习 与 思考 


1. 与 物理 测量 相 比 较 ， 阐 明 心 理 测量 的 特点 。 

2. 为 什么 大 们 不 像 对 物理 测量 那样 容易 接受 心理 测量 ? 
如 何 才 能 证 明 心理 测量 的 必要 人 性 和 可 能 性 ? 

3”. 试 结 合 中 国 心理 测量 界 的 现状 讨论 中 国 心理 学 会 颁布 
《心理 测验 管理 条 例 〈 试 行 )》 和 《心理 测验 工作 者 的 道德 准 
则 》 两 个 文件 的 意义 。 
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本 章 提 要 : 


傅 中 国 古代 学 者 对 心理 与 教育 测量 的 贡献 及 其 特点 
者 西方 心理 与 教育 测量 起 源 的 社会 根源 与 学 术 背 景 
和 西方 心理 三 教育 测量 的 早期 探索 
便 西 方 心理 与 教育 测量 运动 的 发 展 
便 现 代 心 理 与 教育 测 鲁 在 中 国 的 发 展 
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每 一 门 学 科 都 有 其 产生 和 发 展 的 历史 。 了 解 心理 与 教育 测 
量 学 产生 和 发 展 的 历史 ， 有 助 于 进一步 认识 该 学 科 的 性 质 及 其 
现状 。 本 章 将 对 心理 与 教育 测量 学 的 发 展 历程 作 一 简要 回顾 ， 
使 读者 能 够 对 这 一 学 科 的 历史 有 一 个 概要 性 的 了 解 。 


第 一 节 中国 古代 的 心理 与 教育 测量 


和 许多 科学 理论 与 科学 发 明 均 起 源 于 古代 中 国 一 样 ， 中 国 
也 是 心理 与 教育 测量 技术 的 最 早 故 乡 。 在 漫长 的 中 国 古 代 社 会 
里 ,现代 心理 与 教育 测量 的 主要 领域 (如 能 力 测量 、 人 格 测 
量 、 学 绩 测量 ) 均 有 所 涉及 ， 并 取得 举世 公认 的 成 就 。 


一 、 能 力 测量 


中 国 古 代 的 能 力 测量 可 上 滴 到 2500 年 前 的 思想 家 和 教育 
家 孔子 《公元 前 551 ~ 前 479 年 )， 他 在 教育 实践 中 凭借 自己 
的 经 验 观 察 首先 评定 学 生 能 力 的 个 别 差异 ， 并 将 人 的 智力 分 成 
三 个 等 级 ， 即 中 上 之 人 、 中 人 和 中 下 之 人 。 他 说 ;“ 中 上 之 人 
可 以 请 上 也 ， 中 下 之 人 不 可 以 语 上 也 。?"@ 用 现代 人 的 说 法 ， 
就 是 智力 水 平 较 普通 人 《中 人 ) 高 的 人 可 以 给 以 高 等 教育 ， 知 
力 水 平 较 普通 人 《中 人 ) 低 的 人 不 可 以 给 以 高 等 教育 。 


《论语 - 带 也 》。 
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汉代 学 者 董仲舒 〈 约 公元 前 179 ~ 前 104 年 ) 已 论 及 到 注 
意 测验 ， 他 说 : “一 手 画 方 ， 一 手 夯 圆 ， 莫 能 成 。"@ 这 无 疑 是 
世界 上 最 早 的 心理 (注意 ) 测验 。 此 后 ， 东 汉王 充 的 《 论 衡 ， 
书 解 血 》、 北 齐 刘 昼 的 《新 论 }、 明 代 王 守 仁 的 《传习 录 》 等 都 
照 录 了 这 个 测验 。 

三 国 时 期 刘 邵 的 《人 物 志 》 可 以 说 是 一 部 研究 能 力 〈 也 包 
括 性 格 ， 见 稍 后 ) 的 专门 著作 。 在 该 书 中 ， 刘 邵 把 人 的 才能 划 
分 为 12 种 类 型 ， 即 : 清 节 、 法 家 、 术 家 、 国 体 、 器 能 、 藏 否 、 
伎 佰 、 智 意 、 文 章 、 侍 学 、 口 辩 和 雄 杰 。1937 年 ， 美 国学 者 
施 瑞 奥 克 (J].K. Shryock) 将 该 书 以 《人 类 能 力 的 研究 》 为 
书 名 译 成 英文 在 美国 发 表 。 

6 世纪 中 叶 ， 中 国 江南 就 有 了 类 似 于 现在 的 要 儿 发 展 测验 
的 “周岁 试 儿 ”习俗 。 对 此 ， 颜 之 推 在 《 颜 氏 家 训 》 中 作 了 详 
细 记 载 : “江南 风俗 ， 儿 生 一 期 ， 为 制 新 衣 ， 钥 浴 装 饰 。 务 则 
用 弓 矢 纸 笔 ， 女 则 用 刀 尺 针 缕 ， 并 加 饮食 之 物 及 珍宝 服 玩 ， 置 
之 儿 前 ， 观 其 发 意 所 取 以 验 贪 廉 、 智 题 ， 名 之 为 试 儿 。”@ 

出 现 于 清 代 的 益 短 图 (俗称 七 巧 板 )、 九 连环 可 以 认为 是 
最 早 的 创造 力 测验 。 益 智 图 用 形状 大 小 不 同 的 七 块 小 木 块 能 够 
”组 合成 上 百 种 动 植物 和 其 他 实物 图 案 。 九 连环 的 设计 之 巧妙 ， 
足 可 以 与 现代 的 魔方 相 寻 美 。 后 来 ， 刘 洪 肢 用 英文 撰写 了 《中 
国人 用 的 非 文 字 智力 测验 》 一 文 ， 将 七 巧 板 、 九 连环 介绍 到 国 
外 。 美国 心理 学 家 武 德 沃 斯 (Woodworth) 对 九 连环 极为 赞 
赏 ,把 它 视 为 “中 国 式 的 迷津 "。 至 于 七 巧 板 的 操作 ， 则 与 现 
在 的 发 散 思维 测验 完全 一 致 。 
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二 、 人 格 测量 


孔子 不 仅 论 及 到 学 生 智力 水 平 的 评定 ， 同 时 也 提出 了 性 格 
类 型 的 观点 。 他 说 ; “不 得 中 行 而 与 之 ， 必 也 狂 猜 乎 ? 狂 者 进 
歌 ， 狂 者 有 所 不 为 也 。"@ 这 里 ， 和 孔子 显然 把 人 分 成 3 种; 狂 
者 (以 积极 进取 、 敢 和 作 敢 为 为 特征 )、 儿 者 (以 拘谨 胆 惰 、 众 
唯 诺 诺 为 特征 ) 和 中 行 ( 介 于 狂 者 与 独 者 之 间 ， 不 偏 不 倚 )。 
很 明显 ， 和 孔子 的 “ 狂 者 ”相当 于 外 倾 型 ，“ 狂 者 ”相当 于 内 贷 
理 ， 而 “中 行 ” 相 当 于 中 间 型 。 
表 2.1 刘 邵 编制 的 性 格 类 型 表 信 


性 格 类 型 性 格 总 的 特征 . 性格 的 优 缺 点 


强 饥 之 人 | 猴 刚 不 和 | 厉 站 刚 散 ， 材 在 钱 正 ， 失 在 激 许 。 
柔顺 之 人 | 组 心 宽 断 | 和 柔顺 安 恕 ， 每 在 宽容 ， 失 在 少 次 
雄 悍 之 人 | 气 奋勇 决 | 雄 悍 杰 健 ， 任 在 胆 烈 ， 失 在 多 轧 。 
俱 慎之 人 | 长 患 多 如 | 糖 良 扫 俱 ， 善 在 菩 谨 ， 失 在 多 疑 。 
次 楷 之 人 | 秉 意 劲 特 | 强 楷 坚 劲 ， 用 在 桢 干 ， 失 在 专 固 。 
辨 博之 人 | 论 理 塘 给 | 论辩 理 绎 ， 能 在 释 结 ， 失 在 流 宕 。 
引 普 之 人 | 意 爱 周 治 | 普 博 周 给 ， 弘 在 覆 裕 ， 失 在 澜 浊 。 
独 介 之 人 | 论 清 激 浊 _ | 清 介 廉洁 ， 节 在 俭 男 ， 失 在 拘 扁 。 
休 动 之 人 | 志 暮 超越 ，| 休 动 磊 落 ， 业 在 攀 暗 ， 失 在 琉 远 。 
沉静 之 人 | 道 思 回复 | 沉静 机 密 ， 精 在 玄 微 ， 失 在 述 缓 。 
朴 露 之 人 | 申 疑 实 “| 朴 露 劲 尽 ， 质 在 中 诚 ， 失 在 不 微 。 
措 育 之 人 | 原 度 取 容 | 多 智 轿 情 ， 权 在 育 赂 ， 失 在 依 违 。 


刘 邵 根据 阴阳 、 五 行 ( 木 、 金 、 火 、 土 、 水 ) 和 形体 


联 


Q@ 《论语 -子路 》。 
人 四 ”高 觉 数 主编 : 《中 国 心 理学 史 》、 人 员 教 育 出 版 社 1985 年 出 版 、 第 177 
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( 骨 、 筋 、 气 、 肌 、 血 ) 的 关系 及 其 人 的 行为 表现 ， 把 人 的 性 
格 划分 成 12 种 类 型 ( 详 见 表 2.1)。 


三 、 教 育 测 量 


据 迄 今 可 考 的 史料 分 析 ， 世 界 上 最 早 的 教育 测量 出 更 于 中 
对 西 周 奴 录制 时 期 (公元 前 1100 ~ 前 771 年 )。《 礼 记 . 学 记 》 
记载 ， 在 西周 的 “国学 ”中 已 经 建立 具有 相当 系统 性 的 教育 测 
量 制度 : “ 比 年 人 学 ， 中 年 考 校 。 一 年 视 离 经 辨 志 ， 三 年 视 敬 
业 乐 群 ， 五 年 视 博 习 亲 师 ， 七 年 视 论 学 取 友 ， 谓 之 小 成 。 九 年 
知 类 通达 ， 强 立 而 不 反 ， 谓 之 大 成 。” 这 一 制度 ， 不 仅 规定 了 
学 业 考试 的 时 间 和 步骤 一 每 隔 一 年 进行 一 次 。 而 且 规定 了 考 
试 的 内 容 和 标准 一 一 第 一 年 考查 分 析 经 文 、 章 句 的 能 力 及 学 习 
志向 ; 第 三 年 考查 学 习 态 度 及 与 学 友 的 互助 ; 第 五 年 考查 学 业 
的 广博 程度 及 尊 师 情况 ; 第 七 年 考查 分 析 、 评 价 学 业 问 题 的 能 
力 ， 以 及 择 善 而 交 的 能 力 ， 如 果 达 到 标准 ， 称 之 为 “小 成 "; 
第 九 年 则 要 考查 推理 论 事 ， 触 类 旁 通 的 能 力 和 是 否 具 有 坚定 不 
移 的 意志 ， 是 否 不 再 有 违反 师长 教诲 的 地 方 ， 如 果 能 够 达到 标 
准 ， 就 称 之 为 “大 成 ”。 

汉代 在 考试 制度 、 考 试 类 型 和 考试 功能 方面 都 作 了 重要 的 
发 展 。 在 考试 制度 方面 ， 调 整 太 学 考试 时 间 ， 汉 武帝 初 年 曾 制 
定 了 岁 考 制 :“ 一 岁 皆 辐 课 ”， 把 太 学 的 考试 时 间 一 度 缩小 到 一 
年 一 试 。 在 考试 类 型 方面 ， 开 始 使 用 3 种 形式 考试 学 生 ; “ 口 
试 、“ 策 试 ” 及 “ 射 策 ”， 首 开 了 笔试 的 先河 ， 比 欧美 国家 早 
1800 多 年 。 在 考试 功能 方面 ， 汉 代 十 分 重视 教育 测量 功能 的 
发 挥 , 已 经 把 考试 运用 于 督促 和 检查 学 生 的 学 习 ， 使 考试 成 为 
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了 太 学 学 校 管 理 的 手段 之 一 。 

除了 学 校内 部 测 重 的 自身 发 展 以 外 ， 取 士 制度 自 汉 以 来 的 
发 展 ， 客 观 上 也 对 我 国 的 古代 乃至 于 西方 的 教育 测量 发 展 起 了 
促进 作用 。 东 汉 时 ， 选 拔 官 吏 主 要 通过 征 辟 和 察 举 ， 乡 选 里 举 
进行 ， 至 西汉 开始 渗入 考试 因素 ， 经 过 魏 垩 南北朝 时 期 的 “ 九 
品 中 正 ” 制 ， 逐 步 实 现 了 制度 化 ， 最 后 至 隋 断 帝 大 业 二 年 〈 公 
元 606 年 ) 发 展 成 为 科举 制 ， 在 中 国 延 续 了 1300 年 。 其 间 ， 
不 仅 创造 了 分 科 考 试 、“ 弥 封 "、 复 评 等 方法 ， 而 且 在 命题 、 考 
试 组 织 、 反 舞 次 等 方面 形成 了 一 整套 制度 ,不仅 对 欧 、 美 的 公 
务 员 制 度 的 建立 方面 ,而 县 在 教育 测量 方面 都 产生 了 较 大 的 
影响 。 


四 、 对 测验 理论 的 最 初探 索 


在 古代 中 国 ， 不 仅 在 测验 实践 方面 作出 了 杰出 贡献 ， 而 且 
在 测验 理论 上 也 有 车 信人 的 突破 。 和 孔子 之 后 约 150 年 ， 大 思想 
家 孟子 《公元 前 327 ~ 前 289) 就 指出 了 测量 人 类 心理 的 必要 
性 和 可 能 性 。 他 说 ; “ 权 ， 然 后 知 轻 重 ; 度 ， 然 后 知 长 短 。 物 
当然 ， 心 为 甚 "@ 西方 学 者 直到 20 世纪 20 年 代 才 解决 了 这 
一 理论 问题 。 

前 面 提 到 的 刘 如 曾 对 人 才 鉴 定 的 意义 、 可 能 、 困 难 和 方法 
作 了 系统 的 论述 。 刘 邵 认为 ， 人 才 鉴 定 对 于 知人 善 任 、 振 兴国 
家 事业 其 有 重要 意义 。 他 说 : “ 夫 和 圣贤 之 所 美 ， 莫 美 乎 聪明 。 
聪明 之 所 贵 ， 莫 足 乎 知人 。 知 人 诚 智 ， 则 众 材 得 其 序 ， 而 庶 绩 


GD 《天子 - 梁 囊 王 上 》、 
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之 业 兴 锋 o"@ 这 里 ， 所 谓 知 人 ， 就 是 要 对 人 的 才能 和 性 格 做 
出 合乎 客观 实际 的 鉴定 。 人 才 所 以 能 够 鉴定 是 因为 人 的 才能 和 
性 格 必然 要 表现 在 人 的 外 部 行为 中 。 他 把 人 的 行为 表现 概括 为 
9 种 ， 称 为 “ 九 征 ”。 通 过 观察 这 9 种 外 部 表现 就 可 以 知道 人 
的 才能 和 性格 的 特点 。 即 ， 由 “ 神 ” 可 知 “ 平 陂 之 质 *; 由 
“ 精 ”可 知 “明暗 之 实 "; 由 “ 筋 ” 可知 “ 勇 快 之 势 "; 由 “上 骨 ” 
可 知 “ 强 弱 之 植 "; 由 “ 气 ” 可 知 “ 躁 静 之 决 ”"; 由 “ 色 ” 可 知 
“ 惨 怪 之 情 "; 由 “ 仪 ”可 知 “ 衰 正之 形 ”; 由 “ 容 ” 可 知 “ 态 
度 之 动 ";， 由 “ 言 ” 可知“ 缓急 之 状 "@。 尽 管 如 此 ， 刘 邵 仍 然 
认为 人 才 鉴 定 很 不 容易 。 这 主要 是 因为 ; 一 方面 ， 监 定 者 “各 
自立 度 ”， 用 各 自 的 标准 去 衡量 人 才 ， 就 很 难 全 面 地 识别 一 个 
人 ; 另 一 方面 ， 被 鉴定 者 “ 表 里 不 一 ”、 行 为“ 似是而非”， 常 
常 令 鉴 定 者 迷惑 不 解 。 为 了 克服 这 些 困 难 ， 他 提出 了 一 套 识 别 
人 才 的 方法 ， 即 所 谓 “ 八 观 ” 和 “五 视 ”。 所 谓 “ 八 观 ” 就 是 ， 
“一 日 观 其 夺 救 ， 以 明 间 杂 ; 二 日 观 其 感 变 ， 以 审 常 度 ; 三 日 
观 其 志 质 ， 以 知 其 名 ; 四 日 观 其 所 由 ， 以 辨 依 似 ， 五 日 观 其 所 
爱 ， 以 知 通 塞 ; 六 日 观 其 情 机 ， 以 辨 恕 惑 ; 七 日 观 其 所 短 ， 以 
知 所 长 ; 作 日 观 其 聪明 ， 以 知 所 达 。"@ 所 谓 “ 五 视 ” 就 是 : 
“ 居 ， 视 其 所 安 ; 达 ， 视 其 所 举 ; 富 ， 视 其 所 与 ; 穷 ， 视 其 所 
为 ; 贫 ， 视 其 所 取 。"@ 这 是 自 孔 子 以 来 对 观察 法 的 系统 总 结 。 

简单 回 籁 中 国 古 代 社会 的 心理 与 教育 测量 思想 ， 可 以 总 结 
出 它 的 几 个 重要 特点 ; 第 一 ， 中 国 古 代 社 会 的 心理 与 教育 测量 
思想 都 是 描述 性 的 ， 而 非 定量 的 。 这 当然 和 当时 的 整个 科学 技 
术 水 平 是 相 适 应 的 。 第 二 ， 中 国 古代 社会 的 心理 与 教育 测量 是 
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分 类 式 的 。 就 能 力 测量 和 成 就 测量 〈 即 科举 考试 ) 而 言 ， 是 分 
成 高 、 中 、 低 几 个 层次 ; 就 性 格 测量 而 言 ， 是 分 成 若干 种 类 
型 。 第 三 ， 在 中 国 古代 社会 的 心理 与 教育 测量 思想 中 注重 对 人 
作 整 体 的 鉴定 和 评价 ， 并 倾向 于 和 人 的 道德 品质 联系 起 来 。 第 
四 ， 中 国 古 代 社 会 的 心理 与 教育 测量 思想 与 教育 中 的 因材施教 
及 大 才 使 用 有 着 密切 的 联系 ， 它 一 开始 就 具 强 烈 的 应 用 性 质 。 


第 二 节 现代 心理 与 教育 测量 在 西方 
国家 的 产生 和 发 展 


由 于 众多 因素 特别 是 由 于 中 国人 文 传统 的 影响 ， 中 国 虽 然 
是 心理 与 教育 测量 的 最 早 故 乡 ， 但 现代 心理 与 教育 测量 的 理论 
和 技术 不 是 产生 于 中 国 ， 而 是 产生 于 工业 革命 后 的 一 些 西方 
国家 。 


一 、 现 代 心 理 与 教育 测量 的 起 源 


承认 人 的 个 别 差 异 及 其 对 个 人 行为 的 重要 影响 是 开展 心理 
与 教育 测量 工作 的 基本 前 提 。 在 中 国 ，2000 多 年 前 就 有 了 这 
方面 的 自觉 探索 和 思考 。 但 在 西方 ， 科 学 家 最 初 发 现 人 的 心理 
的 个 别 差异 的 重要 性 是 起 因 于 18 世纪 天 文学 上 的 一 个 偶然 事 
件 。1796 年 ， 英 国 格林 威 治 天 文 台 的 皇家 天 文学 家 N ' 马 斯 林 
基因 为 其 助手 金 内 布鲁克 观察 星体 通过 的 时 间 比 自己 晚 了 0.8 
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秒 钟 ， 就 断定 他 “ 师 心 自用 ， 不 依法 行事 ”而 将 他 辞退 。20 
年 后 ， 另 一 夫 文 学 家 贝 塞 尔 对 这 一 事件 作 了 研究 ， 认 为 这 不 是 
金 内 布鲁克 的 过 错 ， 而 是 一 种 不 可 避免 的 个 人 观察 的 误差 。 贝 
塞 尔 的 这 一 发 现 引 起 了 学 者 们 对 个 别 差 异 的 重视 和 研究 。 但 在 
当时 并 未 引起 心理 学 家 的 注意 。 

1879 年 ， 德 国 心 理学 家 冶 特 《( 殉 . Wundt) 在 莱比锡 大 学 
建立 了 世界 上 第 一 个 心理 实验 室 。 它 的 主要 目标 是 要 寻求 人 类 
行为 的 共同 规律 。 在 研究 中 他 发 现 ， 不 同 被 试 对 同一 刺激 的 反 
应 常常 不 同 。 研 究 者 最 初 以 为 这 是 实验 设计 程序 上 的 问题 。 经 
过 长 时 间 的 实验 才 认识 到 ， 这 种 差异 并 不 是 偶然 的 错误 ,而 是 
由 于 个 人 能 力 上 的 真正 差异 。 当 时 的 实验 心理 学 所 研究 的 内 容 
主要 集中 在 感知 觉 等 低级 心理 现象 上 面 ， 而 对 诸如 能 力 、 人 格 
等 高 级 心理 特征 还 无 能 为 力 。 这 就 为 日 后 开展 对 个 别 差 异 的 测 
量 学 研究 提出 了 课题 。 

和 司 时 ， 实 验 心 理学 从 一 开始 形成 了 强调 严格 控制 实验 条 件 
的 传统 。 这 种 使 所 有 被 试 在 尽 可 能 标准 化 的 条 件 下 完成 实验 的 
传统 被 测验 学 家 所 继承 。 心 理 与 教育 测量 发 展 到 今天 ， 测验 的 
标准 化 程度 已 成 为 鉴定 测验 科学 性 的 重要 的 指标 。 

促使 产生 心理 与 教育 测量 技术 的 最 重要 的 因素 是 社会 发 展 
的 需要 。 

工业 革命 成 功 后 ,西方 国家 对 劳动 力 的 需求 急剧 增加 ， 工 
厂 大 量 雇佣 童工 。 为 了 使 低能 者 能 寻找 到 维 生 的 职业 ， 一 些 地 
方 定员 与 工厂 主 订 约 ， 每 雇佣 20 名 童工 ， 必 须 同 时 带 雇 1 名 
低能 者 。 为 了 设法 使 低能 者 尽 可 能 适应 工厂 技术 的 要 求 ， 法 国 
医生 沈 干 《下 .Seguin) 开始 训 智 力 落后 儿童 ,并 于 1837 年 创 
办 了 第 一 所 专门 教育 智力 落后 儿童 的 学 校 。1846 年 ， 沈 干 出 
版 了 《白痴 : 用 生理 学 方法 诊断 与 治疗 》 一 书 ， 介 绍 了 在 感觉 
和 山 次 运动 方面 训练 智力 落后 儿童 的 方法 。1848 年 ， 沈 干 移 
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居 美 国 ， 将 他 的 方法 予以 宣传 ， 并 得 到 广泛 的 接受 。 他 的 著作 
中 的 一 些 内 容 现 已 转化 为 能 力 操作 测验 的 组 成 部 分 。 

19 世纪 ， 由 于 科学 的 发 展 和 欧洲 人 道 主 义 思 想 的 广泛 传 
播 ， 人 们 对 智力 缺陷 者 和 精神 病人 的 态度 发 生 了 重要 变化 ， 开 
设 了 一 些 医院 专门 护理 和 医治 精神 病人 。 这 就 在 客观 上 要 求 确 
定 鉴别 各 种 心理 疾病 的 统一 标准 。 法 国医 生 艾 斯 克 罗 尔 
(E.Esqurol) 首次 对 智力 落后 与 精神 病 作 了 区 分 ， 认 为 精神 病 
的 显著 标志 是 情绪 障碍 ， 而 智力 落后 的 主要 特征 是 从 栅 儿 期 就 
表现 出 来 的 智力 缺陷 。 他 还 认为 ， 智 力 落后 从 接近 正常 到 最 严 
重 的 白痴 之 间 有 一 系列 等 级 ,而 诊断 智力 落后 程度 的 最 可 靠 的 
方法 是 观察 儿童 运用 语言 的 能 力 。 他 的 这 一 思想 至 今 还 体现 在 
智力 测验 之 中 。 

随 若 工业 技术 的 深刻 变革 ， 社 会 分 工 的 日 益 精 细 ， 对 劳动 
力 能 力 的 要 求 越 益 严格 ， 社 会 上 产生 了 对 职业 选 撤 和 训练 的 需 
要 ， 这 也 是 促成 心 旭 与 教育 测验 出 现 的 因素 。 


二 、 心 理 与 教育 测量 的 早期 探索 者 


《一 ) 高 尔 概 

对 现代 心理 与 教育 测量 的 产生 起 过 直接 推动 作用 的 是 英国 
优生 学 的 创始 人 弗 兰 西 斯 高 尔 顿 【Francis Galton)。 他 是 达尔 
文 的 表 兄 弟 ， 深 受 进 化 论 的 影响 。1869 年 ， 高 尔 顿 出 版 了 
《遗传 的 天 才 》 一 书 ， 提 出 人 的 能 力 是 由 遗传 而 来 的 ， 并 设想 
不 同人 的 能 力 水 平 的 分 布 是 正 态 的 ， 其 差异 是 可 以 测量 的 。 
1884 年 ， 高 尔 顿 在 伦敦 国际 博览 会 上 成 立 了 一 个 “人 类 测量 
实验 室 "， 参 观 者 可 得 到 自己 身高、 体重 、 阔 度 等 身体 素质 和 


第 二 章 ”心理 与 教育 测量 的 产生 与 发 展 ， 43: 





视听 敏锐 度 、 肌 肉 力量 、 反 应 时 以 及 其 他 的 感觉 一 运动 机 能 
的 景 化 信息 。 博 览 会 闭幕 后 ， 高 尔 顿 把 实验 室 迁 到 伦敦 南 克 圣 
顿 博物 院 ， 继 续 工 作 了 长 达 6 年 之 久 。 通 过 这 种 方法 ， 高 尔 顿 
积累 了 有 关 简 单 心理 现象 的 个 别 差 异 的 大 量 系统 的 资料 ， 这 可 
以 视 为 第 一 个 大 规模 系统 测量 人 的 个 别 差 异 的 尝试 。 

高 尔 顿 在 他 的 实验 室 里 发 明了 许多 测量 仪器 ， 如 用 于 测量 
长 度 视觉 辨别 的 高 尔 顿 裕 、 用 于 测量 听力 的 高 尔 顿 第 ， 其 中 的 
有 些 仪 器 到 现在 仍然 有 效 。 他 还 是 应 用 评定 量 表 、 问 卷 法 及 自 
由 联想 法 的 先驱 。 

高 尔 顿 在 心理 与 教育 测量 史上 最 重要 的 贡献 之 一 ， 是 把 统 
计 方法 应 用 到 对 个 别 差异 资料 的 分 析 之 中 。 他 不 但 扩充 了 百 分 
位 法 ， 而 且 创 造 了 一 种 简单 的 计算 相关 系数 的 方法 。 其 中 后 者 
被 他 的 学 生 皮 尔 阳 (Karl Pearson) 所 继承 和 发 展 ， 创 立 了 积 
差 相 关公 式 ， 成 为 当今 测量 学 上 应 用 最 为 广泛 的 统计 工具 
之 一 。 


(二 ) 卡特 尔 

卡特 尔 (James 世 . Cattell) 是 美国 心理 学 家 ， 早 年 师 从 
冯 特 。 后 与 高 尔 顿 有 过 密切 交往 ， 并 受到 后 者 的 影响 。 回 到 美 
国 后 ,卡特 尔 致力 于 心理 实验 室 的 建立 与 测量 思想 的 传播 。 
1890 年 ， 卡 特 尔 在 《心理 》 杂 志 发 表 《 心 理 测 验 与 测量 》 一 
文 。 在 这 箱 论 文中， 首次 握 出 了 “心理 测验 ”(miental test) 这 
个 术语 ， 并 报导 了 他 所 编制 的 一 套 能 力 测验 在 大 学 生 身 上 的 应 
几 结果 。 济 验 内 容 包 括 肌肉 力量 、 视 听 敏 感度 、 运 动 速 度 、 重 
量 辩 别 、 反 上 应力、 记忆 力 ， 以 及 类 似 的 一 些 项 目 。 在 该 文中 ， 
卡特 尔 还 论述 了 测验 理论 上 的 一 些 问 题 。 他 认为 ， 心 理学 只 有 
立足 于 实验 与 测量 ,才能 达到 如 同 自然 科学 的 准确 性 ; 心理 测 
验 只 有 建立 普遍 的 统一 标准 ， 并 要 与 常 模 相 比较 ， 才 能 充分 地 
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实现 其 科学 价值 和 实用 价值 。 这 些 观 点 都 已 成 为 测量 学 上 的 年 
要 观念 。 


{三 ) 比 内 

比 内 (A.，Binet) 青年 时 代 学 医 ， 但 对 心理 学 产生 兴趣 。 
1886 年 出 版 他 的 第 一 部 著作 《推理 心理 学 )》，1889 年 与 享 利 ， 
博 尼 (Henri Beaunis) 在 索 那 建立 法 国 第 一 个 心理 实验 室 ， 
1891 年 出 版 《人 格 心理 学 》 一 书 ，1895 年 创办 法 国 心 理学 杂 
志 《 心 理学 年 报 )， 同 年 与 享 利 (V. Henri) 联名 发 表 文 章 ， 
批评 当时 流行 的 测验 偏重 于 简单 感觉 ， 不 能 测 出 真正 的 智力 。 
这 种 批评 是 正确 的 。 因 为 卡特 尔 将 他 编制 的 测验 用 于 施 测 哥 伦 
比 亚 大 学 学 生 ， 然 后 计算 测验 分 数 与 其 考试 成 绩 的 相关 ， 结 果 
相关 值 很 低 。1893 年 ， 贾 斯 特 罗 (J. Jastrow) 编制 出 一 套 由 
15 个 分 测验 组 成 的 测验 ， 但 使 用 的 结果 却 不 能 使 人 满意 。 这 
些 测验 的 结果 不 仅 彼此 相关 不 高 ， 而 且 与 教师 对 学 生 智 力 水 平 
的 评价 结果 也 没有 什么 相关 ， 与 学 生 的 学 业 成 绩 的 相关 也 
不 高 。 

比 内 认为 ， 测 量 比较 复杂 的 心理 功能 ， 不 必 苛 求 精确 竟 ， 
因为 这 些 功能 的 个 别 差异 较 大 。1898 年 ， 比 内 在 哲学 杂志 上 
发 表 《 人 格 心理 学 中 的 测量 》 一 文 ， 提 到 许多 测验 ， 如 画 方 
形 ， 比 较 线 的 长 得， 记忆 数目 ， 词 句 重组 ， 折 纸 ， 理 解 文章 意 
义 等 。 其 中 的 许多 被 后 来 的 量 表 所 采用 。 在 该 文 里 ， 比 内 还 提 
出 心理 测量 的 根本 淹 理 在 于 将 个 人 的 行为 与 他 人 作 比 较 。 这 个 
观点 已 成 为 现代 心理 与 教育 测量 的 一 个 普遍 启 理 。1903 年 ， 
比 内 的 另 一 部 著作 《智力 的 实验 研究 》 问 世 ， 提 出 了 智力 的 定 
义 ， 斌 为 智力 是 高 级 心理 过 程 ， 包 括 推理 、 判 断 以 及 动用 已 知 
知识 解决 新 问题 的 能 力 。 他 以 自己 的 两 个 女儿 为 被 试 ， 进 行 词 
语 填充 、 狠 片 解释 等 项 目的 测量 。 这 些 项 目 也 被 吸收 到 他 后 来 
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的 量 表 中 。 

1904 年 ,一 个 偶然 的 机 会 使 比 内 的 思想 得 以 实践 ， 并 由 
此 推动 了 心理 与 教育 测量 的 迅速 发 展 。 这 一 年 ， 法 国 公共 教育 
部 决定 成 立 一 个 有 医学 家 、 科 学 家 和 教育 家 组 成 的 委员 会 ， 专 
门 研究 公立 学 校 中 落后 儿童 的 教育 方法 。 上 比 内 作为 该 委员 会 的 
成 员 ， 主张 用 测验 方法 来 识别 智力 落后 儿童 ， 但 遭 到 许多 其 他 
委员 的 反对 。 比 内 不 顾 众 人 反对 ， 与 其 助手 西蒙 (T.Simon) 
合作 完 起 了 世界 上 第 一 个 智力 测验 量 表 一 一 比 内 - 西蒙 量 表 
(Binet ~ Simon Scale)。1905 年 ， 他 们 在 《心理 学 年 报 》 上 发 
表 的 《诊断 异常 儿童 的 新 方法 》 一 文 介绍 了 该 量 表 ， 史 称 
1905 年 重 表 。 

1905 年 量 表 由 30 个 由 易 到 难 排列 的 项 目 组 成 ， 可 用 来 测 
量 各 种 能 力 ， 特 别 是 判断 、 理 解 和 推理 能 力 ， 亦 即 他 所 谓 的 智 
力 的 基本 组 成 部 分 。 哩 然 其 中 也 包含 了 部 分 感知 觉 的 测验 ， 但 
主要 是 语言 理解 测验 。 

1908 年 ， 比 内 发 表 了 修订 后 的 比 内 -西蒙 智力 量 表 ， 删 
掉 了 1905 年 量 表 中 不 合适 的 项 目 ， 增 加 了 一 些 新 的 项 目 ， 使 
总 题 数 增加 到 59 个 。 所 有 项 目 都 按 年 龄 分 组 ， 组 别 从 3 岁 ~ 
13 岁 。 年 龄 水 平 根据 300 名 正常 儿童 的 测验 结果 确定 。 测 验 
成 绩 用 “智力 水 平 ” 表 示 ， 目 的 在 于 确定 儿童 能 够 完成 何 种 年 
疮 水 平 的 儿童 能 完成 的 测验 ， 并 建立 了 常 模 。 

1911 年 发 表 了 第 二 次 修订 本 。 这 次 修订 没有 重大 的 变化 ， 
只 是 改变 了 几 种 年 龄 水 平分 组 ， 并 将 测验 扩展 到 成 人 。 就 在 这 
一 年 ， 比 内 逝世 ， 终 年 54 岁 。 

回顾 西方 心理 与 教育 测量 早期 探索 的 历史 可 以 看 出 ， 心 理 
与 教育 测量 的 产生 既 有 着 深刻 的 社会 时 代 背 景 ， 又 与 科学 技术 
的 发 展 水 平 紧密 联系 ， 同 时 也 与 科学 家 个 人 的 学 术 贡 献 有 关 。 
正如 美国 著名 心理 史学 家 波 林 (E.G.Boring) 所 指出 的 ， 在 
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特 尔 10 年 ，20 世纪 头 10 年 则 是 比 内 约 10 年 。 


三 、 心 理 与 教育 测量 运动 的 发 展 


从 20 世纪 初叶 开始 ， 西 方 心 理 与 教育 测量 获得 迅速 发 展 。 
其 发 展 的 基本 轨迹 是 ; 20 年 代 进入 狂热 期 ，40 年 代 达 到 顶峰 ， 
50 年 代 以 后 经 典 测量 理论 趋 于 成 熟 并 稳步 发 展 ，60 年 代 以 后 
测量 理论 出 现 新 的 动向 ， 尤 其 是 项 目 反 应 理论 各 概 化 理论 的 出 
现 引 起 了 心理 与 教育 测量 领域 的 深刻 变革 。 下 面 分 4 个 方面 作 
些 简要 回身 。 


(一 ) 智力 测验 的 发 展 

比 内 -西蒙 智力 量 表 发 表 后 ， 引 起 世界 各 地 的 广泛 关注 。 
各 种 语言 的 版 本 纷纷 出 更， 其 中 最 为 著名 的 是 美国 斯 坦 福 大 学 
推 孟 (L. 在 . Terman) 于 1916 年 修订 的 斯 坦 福 - 比 内 量 表 。 
其 中 影响 最 为 深远 的 变动 是 推 备 采 用 了 比率 智商 的 概念 来 表示 
智力 水 平 的 高 低 。 早 在 1911 年 ， 德 国 汉 堡 大 学 心理 学 家 斯 腾 
就 曾 提 出 用 儿童 的 心理 年 龄 与 实 足 年 龄 的 比值 (心理 商 数 ) 来 
表示 儿童 的 聪明 程度 ， 推 孟 在 修订 比 内 - 西蒙 量 表 时 将 其 改 为 
“智商 ”， 从 此 智商 一 词 风靡 全 世界 。 

比 内 - 西蒙 量 表 及 其 修订 形式 都 是 个 别 测验 ， 一 次 只 能 测 
最 一 个 被 试 。 这 种 测验 在 临床 诊断 和 个 案 资 料 的 收集 中 是 有 价 
值 的 ， 但 若是 测量 对 象 太 多 ， 就 非常 费时 间 。 针 对 这 种 情况 ， 
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适合 于 大 规模 测量 的 团体 测验 被 发 展 起 来 。1917 年 ， 美 国政 
府 决定 参加 第 一 次 世界 大 战 。 美 国 心 理学 会 组 成 以 叶 克 斯 
(R.M.Yerkes) 为 首 的 委员 会 讨论 心理 学 如 何 为 战争 服务 的 问 
题 。 他 们 认为 ， 军 队 在 选拔 和 分 派 官兵 时 ， 应 当 考 虑 他 们 的 智 
力 水 平 。 但 军队 有 100 多 万 人 ， 若 要 实施 智力 测验 ， 就 只 能 采 
用 团体 施 测 方法 。 于 是 出 现 了 “陆军 甲 种 测验 ” 积 “ 陆 军 乙 种 
测验 ”， 前 者 为 文字 测验 ， 后 者 为 非 文 字 测 验 。 两 种 测验 均 可 
用 于 大 规模 的 团体 施 测 。 在 1917 ~ 1919 年 间 ， 运用 这 两 种 测 
验 共 测量 了 200 多 万 名 官兵 ， 积 累 了 大 量 的 资料 。 

战 后 ， 这 两 种 测验 在 修订 后 被 广泛 运用 到 整个 社会 ， 为 教 
. 彰 和 工商 人 事 服务 。 在 20 年 代 ， 智 力 测验 运动 出 现 了 狂热 的 
势头 ,大量 的 团体 智力 测验 不 断 涌现 ， 以 至 出 现 了 粗制滥造 的 
情况 。 

随 着 智力 测验 的 发 展 和 统计 学 的 进步 ， 对 智力 本 质 及 其 结 
构 的 统计 学 研究 应 运 而 生 。 英 国 心理 学 家 斯 皮尔 蝇 
(C.Spearman) 首先 运用 因素 分 析 方法 研究 智力 结构 ， 提 出 管 
力 结构 的 “二 因素 理论 "， 推 动 了 30 年 代 ~ 50 年 代 的 智力 结 
构 研 究 ， 并 为 编制 新 的 智力 测验 莫 定 了 理论 基础 。 

为 了 满足 社会 对 测验 的 需要 ， 新 的 智力 测验 不 断 编制 出 
来 。30 年 代 以 后 ， 英 国 心 理学 家 瑞 文 〔(J. C. Raven) 针对 斯 
皮尔 要 的 “G” 因 素 相 继 编 制 了 “ 瑞 文 标准 推理 测验 ”、“ 瑞 文 
彩色 推理 测验 ”"、“ 瑞 文 高 级 推理 测验 ”。 从 40 年 代 末 开始 ， 美 
国 心理 学 家 韦 克 斯 勒 〈D. Wechsler) 也 相继 编制 了 “ 韦 氏 儿童 
智力 重 表 ”(1949)、“ 韦 氏 成 人 智力 量 表 ”(1955) 和 “ 韦 氏 幼 
儿 智 力量 表 ”(1967)。 韦 克 斯 勤 在 智力 测验 方面 的 最 重要 的 贡 
献 是 : 中 他 舍弃 了 比率 智商 ， 而 用 离 差 智 商 代 之 ， 从 而 克服 了 
比率 智商 的 局 限 。@ 他 编制 的 智力 量 表 分 为 言语 量 表 和 操作 量 
表 两 部 分 ， 不 仅 能 够 获得 总 笨 智力 水 平 的 信息 ，、 而 且 可 以 获得 
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受 测 者 智力 优势 的 信息 。 


(二 ) 能 力 倾向 测验 的 发 展 

智力 测验 所 测量 的 只 是 人 的 一 般 能 力 水 平 ， 只 是 人 的 能 力 
结构 中 的 一 个 方面 。 从 20 年 代 开始 ， 人 们 在 开发 智力 测验 的 
同时 ， 考 手 编制 特殊 能 力 测验 。 最 初 被 称 为 “学 业 能 力 倾向 济 
验 ”， 后 来 进一步 扩展 到 职业 咨询 、 工 业 部 门 及 军事 领域 的 人 
才 选 拔 和 安置 工作 。 这 些 测 验 包 括 音乐 、 文 书 、 机 械 和 艺术 等 
强调 特殊 能 力 的 领域 。 在 编制 成 套 能 力 倾 向 测验 的 过 程 中 ， 因 
素 分 析 方 法 起 了 重要 的 作用 。 因 为 这 种 方法 能 够 通过 对 测验 的 
分 析 获 得 相对 独立 的 能 力 因 素 ， 如 言语 理解 、 数 学 推理 、 空 间 
定向 、 知 觉 速 度 、 机 械 操作 等 。 因 此 ， 根 据 因素 分 析 法 编制 的 
测验 通常 提供 的 是 被 试 在 各 个 能 力 因 素 上 的 分 数 ， 这 就 有 助 于 
进行 个 体内 部 心理 结构 的 分 析 。 


(三 》 成 就 测验 的 发 展 

心理 测量 原理 和 技术 的 发 展 ， 为 学 校 考试 制度 的 改革 提供 
了 理论 依据 和 技术 手段 。 早 在 1897 年 ， 蒋 斯 (G. Rice) 就 曾 
编制 出 美国 学 校 儿 童 拼 读 能 力 测 验 。20 世纪 初 ， 桑 代 克 
(E.L.Thorndike) 编制 了 第 一 个 标准 化 的 教育 成 就 测验 ， 该 测 
验 运用 心理 测量 原理 ， 编 制 出 评定 学 生 书 写 、 作 文 、 拼 读 、 算 
术 、 计 算 和 推理 的 量 表 。 正 因为 如 此 ， 桑 代 克 被 公推 为 教育 测 
量 的 鼻祖 。1923 年 ， 凯 利 〈L.Kelley) 、 重 奇 (G.Ruch) 和 推 
孟 合 作 编 制 了 第 一 个 成 套 成 就 测验 “斯 坦 福 成 就 测验 ”。 
该 测验 的 一 个 显著 特点 是 能 够 对 不 同学 科 的 测验 成 绩 进 行 比 
较 。 由 于 成 就 测验 属于 客观 测验 ， 传 统 的 论文 式 考试 开始 引起 
争议 ， 认 为 论文 式 考试 费时 多 ， 评 分 结果 不 可 靠 。 

30 年 代 后 期 ， 在 美国 出 现 了 路 州 、 跨 区 域 万 至 全 国 的 测 
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验 机 构 。 其 中 最 为 著名 的 要 数 “ 大 学 人 学 考试 委员 会 ” (Col- 
lege Entrance Examination Board， 简 称 CEEB)。1947 年 ， 美 国 
成 立 “ 教 育 测验 服务 中 心 ”(Educational Testing Service， 简 称 
ETS) ， 它 的 任务 是 编制 各 种 测验 程序 ， 供 各 大 学 、 学 校 和 政 
府 机 构 选用 。1959 年 ， 美 国 又 建立 了 “美国 大 学 测验 系统 ” 
(American College Testing Program)， 该 机 构 提 供 选 拔 获取 奖 
学 金 的 高 材 生 的 测量 方法 。 

现在 ， 成 就 测验 不 仅 用 于 教育 领域 ， 而 且 被 广泛 地 应 用 于 
工业 企业 的 人 事 任用 和 政府 公务 员 的 选拔 。 


(四 ) 人 格 测验 的 发 展 

心理 与 教育 测量 的 另 一 重要 领域 ， 是 对 人 的 人 格 特质 的 测 
量 。 这 一 领域 涉及 广泛 的 方面 ， 如 情绪 、 动 机 、 兴 趣 、 态 度 、 
气质 、 性 格 等 等 。 

最 早 进行 人 格 测量 的 是 克 雷 培 林 (EE.Kraepelin)， 他 最 早 
用 自由 联想 法 诊断 精神 病人 。 在 这 样 的 测验 中 ， 主 试 给 被 试 提 
供 若干 经 过 选择 的 刺激 词 ， 要 求 被 试用 最 快 的 速度 报告 他 想到 
的 第 一 个 词 。 克 雷 培 林 还 用 这 种 方法 研究 了 疲劳 、 饥 俄 、 药 物 
的 心理 效应 ， 发 现 所 有 这 些 状态 都 增加 了 病人 的 表层 联想 。 此 
后 ， 自 由 联想 技术 一 直 是 用 来 诊断 人 格 障碍 的 一 种 方法 。 

本 世纪 初叶 ， 出 更 了 自 陈 人 格 问卷 。1917 年 ， 美 国 心理 
学 家 武 德 沃 斯 用 自 陈 问卷 法 编制 了 适用 于 诊断 士兵 神经 症 的 
“个 人 资料 调查 表 ”。 后 来 ， 美 国 的 卡特 尔 (R.B.Cattell) 经 过 
多 年 的 努力 ， 编 制 成 “卡特 尔 16 种 人 格 问卷 "。 英 国 的 艾 森 克 
(H.J.Eysenck) 编制 成 “ 艾 森 克 人 格 问 卷 "。 美 国明 尼 苏 达 大 
学 的 险 兹 威 (S.R.Hathawag) 和 莫 肯 利 (J.C.Mckinley) 缩 
制 成 “明尼苏达 多 项 人 格调 查 表 ”。 这 些 人 格 问 着 后 来 被 翻译 
成 多 种 文字 ， 流 行 于 全 世界 。 
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人 格 测量 的 另 一 种 重要 的 技术 是 投射 测验 。 早 在 15 世纪 
就 有 人 注意 到 墨迹 可 以 刺激 人 的 想象 。 比 内 也 萝 想 利用 县 迹 来 
测 重 儿童 的 智力 , 但 没有 成 功 。1910 年 ， 瑞 士 精神 医学 家 罗 
夏 克 《H.Rorschach) 为 了 研究 精神 障碍 对 知觉 的 影响 ， 曾 用 
一 些 画 片 来 测量 病人 ， 以 后 改 用 墨迹 图 。 在 最 初 制作 墨迹 图 
时 ， 先 在 一 张 纸 的 中 央 倒 一 堆 墨 汁 ， 然 后 将 纸 对 折 挤 压 ， 使 黑 
汁 向 四 面 流 动 ， 形 成 两 边 对 称 但 形状 不 定 的 图 形 。 罗 夏 克 以 此 
类 图 形 ， 对 各 种 精神 病 忠 者 作 了 大 量 试验 ， 发 现 不 同类 型 的 病 
人 ， 对 墨迹 图 有 不 同 的 反应 。 然 后 再 和 低能 者 、 正 常人 、 艺 术 
家 等 的 反应 作 比 较 ， 最 后 确定 其 中 10 张 肥 迹 图 作为 测验 材料 ， 
逐步 确定 记分 方法 和 解释 测验 结果 的 原则 ， 于 1921 年 正式 发 
表 。 此 后 ， 险 罗 尔 (Harrower) 在 第 二 次 世界 大 战 期 间 编制 了 
以 团体 方式 实施 的 墨迹 测验 ; 堆 滋 受 〈(Holtzman) 也 编制 了 黑 
迹 测 验 ， 且 有 复 本 ,每 套 由 45 张 墨迹 图 组 成 。 此 外 ，1935 
年 ， 由 英 瑞 《(H.A.Marrau) 和 摩根 (Morgan) 编制 的 著名 的 
“主题 统 觉 测 验 ”(Thematic Apperception Test， 简 称 TAT) 也 
是 投射 涡 验 的 一 种 。 其 他 如 句子 完成 测验 、 人 情境 对 话 测验 、 画 
大 测验 等 也 属于 投射 测验 。 


四 、 心 理 与 教育 测量 的 当代 趋势 


60 年 代 以 后 ， 心 理 与 教育 测量 学 界 出 现 了 一 些 新 的 方向 。 
概括 起 来 主要 是 3 个 方面 : 一 是 由 于 信息 加 工 心理 学 的 兴起 ， 
测量 学 界 倾向 于 将 实验 法 和 测验 法 相 结 合 ， 产 生 了 信息 加 工 测 
验 。 二 是 由 于 计算 机 技术 的 迅速 发 展 ， 传 统 的 纸 笔 测 验 逐 渐 被 
电脑 程序 测验 所 取代 ， 从 而 大 大 提高 了 测验 的 效率 。 三 是 针对 
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经 典 测量 理论 〈 即 真 分 数理 论 ) 的 某 些 缺陷 ， 提 出 了 一 些 新 的 
测量 理论 ， 尤 其 是 项 目 反 应 理论 和 概 化 理论 ， 不 仅 在 理论 上 取 
得 了 巨大 成 就 ， 而 且 在 应 用 上 也 显示 出 强大 的 生命 力 。 


第 三 节 ”现代 心理 与 教育 测量 在 中 国 的 发 展 
一 、 现 代 心 理 与 教育 测量 建国 前 的 发 展 


清朝 末年 ， 西 方 心理 学 开始 传人 中 国 。1914 年 ， 有 人 在 
广东 对 500 名 儿童 作 了 记忆 的 比喻 理解 测验 。1917 年 ， 樊 炳 
清 首先 向 国人 介绍 了 比 内 - 西蒙 智力 量 表 。1918 年 ， 俞 子 砍 
编制 “小 学 生 毛 笔 书 法 量 表 ”可 视 为 我 国 最 早 的 新 式 教 育 测 
验 。1920 年 ， 诀 世 承 和 陈 锥 琴 在 南京 高 等 师范 学 校 率 先 开设 
心理 测验 课程 。1921 年 ， 诬 、 陈 二 人 出 版 《心理 测验 法 )》。 
1921 年 ， 费 培 杰 将 比 内 重 表 译 成 中 文 ， 并 在 江苏 、 浙 江 二 省 
的 小 学 生 中 进行 过 测验 。 同 年 ， 中 华 教育 改进 社 邀 请 美国 测量 
学 家 麦 柯 尔 (多 .A.Mocall) 来 华 讲学 ， 并 指导 北京 师范 大 学 、 
北京 大 学 、 燕 京 大 学 、 北 京 女子 高 等 师范 大 学 、 东 南大 学 的 师 
生 编 制 测验 ， 各 地 编 成 测验 40 多 种 。 麦 柯 尔 评价 当时 中 国 心 
理学 家 所 编制 的 测验 “至 少 都 与 美国 的 水 平 相 当 ， 有 许多 竟 比 
美国 的 为 优 。” 1923 年 ， 中 华 教育 改进 社 对 全 国 22 个 城市 和 
11 个 乡 填 的 9.2 万 名 小 学 生 进行 了 测验 ， 引 起 教育 界 的 关注 。 
1931 年 ， 在 艾 伟 、 陆 志 伟 、 陈 礁 生 、 肖 孝 荣 等 人 的 倡议 下 成 
立 了 中 国 测验 学 会 。 次 年 , 《测验 》 杂 志 创 刊 。 从 20 年 代 初 至 
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40 年 代 末 ， 除 抗战 期 间 外 ， 中 国 的 心理 与 教育 测量 工作 从 未 
间断 过 ， 并 涉及 广泛 的 领域 。 

在 智力 测验 方面 ，1924 年 ， 陆 志 伟 根据 中 国 南 方 的 测验 
结果 发 表 了 《订正 比 内 西蒙 智力 测验 说 明 书 》; 1936 年 ， 他 和 
吴 天 化 合作， 将 测验 范围 扩大 到 北方 ， 作 了 第 二 次 修订 。 他 们 
的 研究 结果 表明 ， 中 国 儿 童 的 智力 测验 成 绩 显 著 高 于 欧美 和 日 
本 同年 龄 的 儿童 。 在 此 期 间 ， 雇 世 承 编制 了 “团体 智力 洞 验 ， 
陈 扒 于 编制 了 “图 形 智 力 测验 ”"， 刘 洪 轧 编制 了 “ 非 文字 力 知 
力 测验 ”， 均 有 一 定 影响 。 

在 人 格 测验 方面 ， 肖 孝 荣 曾 族 订 了 “ 武 德 沃 斯 个 人 资料 记 
录 表 "， 并 编制 有 9 ~ 15 岁 的 常 模 。1935 年 ， 浙 江 的 沈 有 乾 用 
“ 朋 洛 德 人 格 问卷 ”测量 中 国学 生 ， 发 现 中 国 男生 的 神经 症 倾 
向 明显 高 于 美国 男生 。1937 年 ， 周 先 庚 用 “ 塞 斯 顿 情绪 稳定 
性 测验 ”测量 中 国学 生 ， 也 发 现 中 国学 生 的 情绪 适应 性 较 差 。 
1943 年 ， 林 传 鼎 试用 “ 普 莱 西 X -0 测验 ”， 发 现 中 国 11 ~ 18 
岁 青 少年 的 情绪 成 熟 度 的 发 育 比美 国 同 年 龄 青少年 晚 一 年 左 
右 。1948 年 ， 刘 范 曾 试 用 “ 罗 夏 克 回 迹 测验 ”。 

在 教育 测验 方面 ， 艾 伟 曾 编制 小 学 儿童 各 科学 续 测 验 10 
多 种 。 特 别 是 他 对 中 学 生 赔 读 能 力 和 理解 能 力 的 研究 ， 为 当时 
的 语文 教学 改革 提供 了 科学 依据 。 

这 时 期 在 测量 学 学 科 建设 方面 ， 共 出 版 有 关心 理 与 教育 测 
量 的 著作 达 20 余 种 ， 其 中 兰 承 先 的 《测验 之 学 理 的 研究 》、 王 
征 葵 的 《态度 测量 法 》、 沈 有 乾 的 《心理 与 测验 》、 王 书 林 的 
《心理 与 教育 测验 》、 陈 选 善 的 《教育 测验 》、 艾 伟 的 《小 学 儿 
童 能 力 测验 》 以 及 孙 正 邦 的 《心理 与 教育 测验 》 等 具有 较 大 的 
影响 。 
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二 、 现 代 心 理 与 教育 测量 建国 后 的 发 展 


1949 年 以 后 的 30 年 间 ， 由 于 深 受 前 苏联 心理 学 的 影响 中 ， 
我 国 心理 与 教育 测量 一 直 是 一 个 禁区 ， 无 人 问津 。1979 年 ， 
随 着 心理 科学 在 中 国 现代 化 进程 中 的 地 位 得 到 重新 肯定 ， 心 理 
与 教育 测量 工作 也 得 以 恢复 。10 多 年 来 ， 中 国 的 心理 与 教育 
测量 在 各 主要 领域 获得 了 迅速 发 展 。 为 心理 与 教育 测量 的 学 科 
建设 和 改进 实际 工作 作出 了 重要 贡献 。 


(一 ) 智力 测验 

1979 年 ， 中 国 心理 学 会 医学 心理 专业 委员 会 在 天 津 成 立 
心理 测验 协作 组 ,决定 由 黎 想 先 主 持 修 订 “ 韦 克 斯 勒 成 人 管 力 
量 表 ”， 于 1982 年 完成 修订 工作 。1980 年 ， 中 国 心理 学 会 实 
验 心理 学 专业 委员 会 在 武汉 成 立 心理 测验 协作 组 ， 决 定 由 林 传 
易 、 张 厚 紧 主持 修订 “ 韦 克 斯 勤 儿 童 智 力量 表 "， 于 1986 年 完 
成 修订 工作 。1982 年 ， 吴 天 敏 修订 出 版 了 “第 三 次 修订 中 国 
比 内 测验 ”。1986 年 ， 比 埠 先 又 主持 修订 了 “ 韦 克 斯 勒 幼儿 智 
力量 表 ”。1985 年 ， 张 厚 蛇 主持 修订 了 “ 瑞 文 标准 推理 测验 ”。 
1989 年 ， 李 丹 主 持 修订 成 “ 瑞 文 测验 (联合 型 )”。1992 年 ， 
戴 忠 恒 修 订 了 “一 般 能 力 倾向 测验 ”。 这 些 量 表 都 是 国际 上 著 
名 的 智力 测验 ， 修 订 后 广泛 用 于 智力 问题 的 研究 和 因材施教 、 
人 才 选 找 、 职 业 咨 询 、 临 床 诊断 等 领域 。 此 外 ， 中 国学 者 也 编 


中 ” 1936 年， 苏联 开展 对 “儿童 学 ”的 批判 运动 。 受 扩大 化 的 影响 ， 心 理 与 
教育 测量 成 为 研究 禁区 。 
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制 了 不 少 的 智力 测验 ， 如 张 厚 上 加、 周 容 等 编制 的 “中 国 儿 童 发 
展 量 表 ” 等 等 。 


(二 ) 人 格 测验 

1982 年 ， 由 宋 维 真主 持 修 订 “ 明 尼 苏 达 多 相 人 格调 查 
表 ”， 于 1985 年 完成 修订 工作 。1981 年 ， 刘 绍 衣 等 修订 了 
“卡特 尔 16 种 人 格 因素 问 卷 "， 制 定 了 辽宁 省 的 常 模 ， 后 于 
1988 年 由 戴 忠 恒 、 祝 蓓 里 主持 制定 出 全 国 常 模 。1983 年 ， 芍 
序 先 主持 修订 了 “ 艾 森 克 人 格 问 卷 "， 同 时 陈 仲 庚 也 在 北方 作 
了 和 修订。 在 临床 心理 学 领域 ,也 修订 了 多 种 涉及 心理 健康 评 售 
的 量 表 ， 如 张 明 因 于 1987 年 修订 了 “生活 事件 量 表 ”。 吴 文 源 
等 于 1990 年 修订 了 “症状 自 评 量 表 (SCL -90)” 等 等 。 

80 年 代 末 90 年 代 初 ， 中 国 心理 学 家 在 继续 引进 修订 国外 
人 格 量 表 的 同时 ， 开 始 编制 中 国人 自己 的 人 格 量 表 。1988 年 ， 
洪 德 厚 等 编制 了 “中 国 少 年 非 智 力 个 性 特征 问 着 ”。1992 年 ， 
宋 维 真 等 人 在 借鉴 “明尼苏达 多 相 人 格调 查 表 ” 的 基础 上 ， 编 
制 出 “心理 健康 测 查 表 ”，1993 年 ， 他 们 伺 香 港 学 者 合作 编制 
出 “中 国人 个 性 测量 表 "。1992 年 ， 沙 毓 英 、 张 锋 等 人 编制 出 
“学 生性 格 量 表 (11 ~ 18 岁 )”， 并 于 1995 年 在 张 锋 的 主持 下 
制定 了 云南 省 城市 、 农 村 及 少数 民族 学 生 的 常 模 。 


(三 》 教 育 测验 

1979 年 ， 林 传 鼎 、 张 怪 紧 等 人 在 参考 国外 资料 的 基础 上 
编制 了 “少年 儿童 学 习 能 力 测验 ”， 用 于 测量 小 学 毕业 生 的 普 
通 能 力 ， 并 估计 小 学 毕业 生 是 否 具备 学 习 初 中 课程 所 必需 的 语 
言 能 力 和 推理 能 力 。 2 

1980 年 开始 ， 在 张 厚 紧 的 主持 下 ， 北 京师 范 大 学 高 考研 
究 组 对 每 年 的 襄 考 试卷 作 了 系统 的 统计 分 析 ， 获 得 了 有 关 试 卷 
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信和 度 、 效 度 、 难 度 、 区 分 度 等 有 意义 的 信息 。 他 们 还 对 高 考试 
卷 评分 的 客观 性 、 考 试 科目 的 合理 设置 及 各 科 分 数 的 合理 组 合 
作 了 研究 。 在 此 基础 上 对 我 国 高 考 制度 的 进一步 改革 提出 了 一 
系列 重要 的 意见 和 建议 。 

1984 年 ， 我 国正 式 加 入 世界 上 最 有 影响 力 的 “国际 教育 
成 就 评价 协会 ” 《IEA)， 并 与 “国际 教育 成 就 评价 协会 ” 合 
作 ， 在 我 国 进 行 了 全 国 规模 的 教育 测量 抽样 研究 。 

1986 年 ， 罗 黎 辉 、 施 良 方 等 对 教育 目标 分 类 理论 进行 了 
研究 ， 并 将 50 年 代 以 来 给 国际 教育 测量 学 研究 带 来 突破 性 进 
展 的 重要 理论 即 布 卢 姆 -(B.S.Bloom) 的 《教育 目标 分 类 学 》 
系统 地 介绍 到 中 国 ， 为 我 国教 育 测量 的 理论 研究 与 实践 提供 了 
新 的 视野 ， 注 人 了 新 的 气息 ， 产 生 了 广泛 而 积极 的 影响 。 

80 年代， 张 敏 强 、 张 厚 球 对 经 典 测量 理论 和 项 目 反 应 理 
论 在 考试 制度 改革 中 的 应 用 情况 作 了 比较 研究 。 杨 志 绷 、 张 厚 
紧 运 用 概 化 理论 对 测量 误差 作 了 分 析 。 张 厚 上 绷 等 人 以 项 目 肥 应 
理论 为 基础 建立 了 “普通 心理 学 计算 机 化 适应 性 测验 系统 "。 
漆 书 育 、 戴 海 财 等 人 以 项 目 反应 理论 为 依据 编制 了 “党 务工 作 
者 专业 知识 计算 机 化 自 适应 油 验 ”， 为 干部 考核 的 科学 化 迈 出 
了 重要 的 一 步 。 胡 显 勇 运用 概 化 理论 对 作文 评分 误差 的 控制 作 
了 研究 。 

标准 化 考试 理论 与 实践 的 研究 、 题 库 理论 与 技术 的 研究 取 
得 长 足 进 展 。《 标 准 化 考试 简介 》 (国家 教育 委员 会 学 生 管理 
司 ，1985) 、《 标 准 化 考试 的 理论 与 实践 》( 麻 平 胜 等 ，1986) 、 
《题库 建设 的 理论 与 实践 》 (国家 教育 委员 会 考试 中 心 ，1991) 
等 一 大 批 著作 相继 出 版 。1985 年 国家 教育 委员 会 开始 在 广东 
省 进行 了 高 考 标准 化 的 试验 。1989 年 ， 华 南 理工 大 学 建设 的 
“高 等 数学 试题 库 ” 及 “高 校 工科 物理 题库 ”通过 国家 教委 鉴 
定 ， 全 国 各 地 大 、 中 、 小 学 各 学 科 的 各 种 题库 纷纷 建成 并 投入 
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使 用 。 

80 年 代 以 来 ， 教 育 测量 开始 从 单一 的 学 生 学 绩 测量 ， 逐 
步 向 多 侧面 发 展 。 学 生发 展 测量 ， 教 师 教学 质量 测量 、 课 程 建 
设 质量 测量 、 办 学 效益 测量 等 各 种 教育 测量 悄然 兴 起 。 教 育 测 
量 类 型 也 从 过 去 比较 单一 的 终结 性 测量 发 展 为 诊断 性 测量 、 形 
成 性 测量 等 多 类 型 的 测量 。 


(四 ) 组 织 建 设 和 人 才 培 养 

随 着 心理 与 教育 测量 研究 的 深入 和 应 用 领域 的 拓展 ， 心 理 
与 教育 测量 的 组 织 建 设 也 得 到 强化 。1984 年 ， 中 国 心理 学 会 
组 建 心理 测验 工作 委员 会 ， 后 进一步 扩建 为 心理 测量 专业 委员 
会 。 该 专业 委员 会 定期 组 织 召 开 全 国 性 的 学 术 会 议 。 针 对 近年 
来 激 用 和 误 用 测验 的 情况 ， 该 专业 委员 会 及 时 制定 了 《心理 测 
验 管理 条 例 》 和 《心理 测验 工作 者 的 道德 准则 》 两 个 文件 ， 由 
《心理 学 报 》 公 开 颁 布 。 此 外 ， 教 育 学 界 也 成 立 了 教育 统计 与 
测量 学 会 ， 开 展 有 关 工 作 。 

保证 心理 与 教育 测量 事业 健康 发 展 的 前 提 条 件 是 培养 合格 
的 测量 学 人 才 。 继 1980 年 北京 师范 大 学 心理 系 率 先 开 设 “ 心 
理 测量 ”课程 以 来 ， 各 大 学 有 关系 科 都 已 先后 开设 了 “心理 与 
教育 测量 ”课程 。 一 些 大 学 招收 硕士 和 博士 研究 生 ， 为 该 学 科 
培养 高 层次 学 术 人 才 。 心 理 测量 专业 委员 会 以 及 一 些 大 学 还 多 
次 举办 心理 测量 技术 培训 班 ， 培 养 了 一 批 应 用 型 人 才 。 


(五 ) 学 科 建 设 

80 年 代 以 来 ， 国 内 不 仅 发 表 了 大 量 有 关心 理 与 教育 测量 
的 研究 论文 ， 而 且 出 版 了 多 种 教材 与 专著 。 如 宋 兆 鸿 等 的 《 现 
代 教 育 测量 》(1986)， 郑 日 昌 的 《心理 测量 》(1987)， 戴 忠 恒 
的 《教育 与 心理 测量 》 (1987) ， 余 嘉 元 的 《教育 与 心理 测量 》 
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(1987)， 王 汉 澜 主编 的 《教育 测量 学 》(1988) ， 茧 凯 平 的 《 心 
理 测验 一 一 原理 与 实践 》(1989)， 邢 最 智 、 司 徒 伟 成 的 《现代 
教育 测量 理论 》(1989) ， 漆 青 书 、 戴 海 崎 的 《项 目 反 应 理论 及 
其 应 用 研究 》 (1992)， 黄 光 扬 的 《心理 测量 的 理论 与 应 用 》 
(1997) 等 等 。 


练习 与 思考 


1. 简 述 古代 中 国 对 心理 与 教育 测量 的 贡献 及 其 特点 。 

2. 心理 与 教育 测量 从 卡特 尔 到 比 内 的 发 展 过 程 中 可 以 看 
出 什么 特点 ? 
3. 推 孟 和 韦 克 斯 勤 在 智力 测验 发 展 过 程 中 各 有 什么 贡献 ? 

4*. 比较 心理 与 教育 测量 在 中 国 解放 前 后 的 发 展 ， 会 得 出 
什么 结论 ? 

5* . 根据 本 章 的 论述 ， 查 阅 有 关 资 料 ， 讨 论 中 国 心理 与 教 
育 测量 的 现状 与 未 来 发 展 的 方向 。 
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第 三 章 ，” 经 典 测验 理论 
的 基本 假设 


本 章 提 要 : 

全 心理 特质 及 其 可 测 性 

便 心 理 测量 的 误差 及 其 种 类 
看 真 分 数 的 会 义 

参 经 典 测验 理论 的 基本 很 设 
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在 日 常生 活 中 ， 人 的 身高 、 体 重 等 特征 比较 容易 测量 。 
为 人 的 这 些 生理 属性 比较 稳定 而 直观 ， 其 测量 工具 (尺子 和 秤 
等 ) 也 容易 制作 和 使 用 。 然 而 ， 人 的 内 隐 的 心理 特征 是 否 稳 
定 ? 它们 能 够 测量 吗 ? 如 果 能 够 测量 ,又 必须 具备 哪些 条 件 ? 
在 本 章 里 ， 我 们 先 讨论 经 典 测 验 理论 (Classical Test Theory, 
CTT) 的 若干 基本 很 设 。 


第 一 节 ”心理 特质 及 其 可 测 性 假设 
一 、 心 理 特质 的 含义 


在 日 常生 活 中 ， 我 们 发 现 有 的 人 比较 热情 ， 有 的 人 比较 准 
漠 ; 有 的 人 比较 聪明 ， 有 的 人 比较 恩 莹 ; 有 的 人 比较 急躁 ， 有 
的 人 比较 文静 等 等 。 为 研究 方便 ， 我们 称 这 种 表现 在 -一 个 人 身 
上 所 特有 的 相对 稳定 的 行为 方式 为 人 的 心理 特质 (trait)。 对 
这 一 概念 ， 我 们 可 以 从 以 下 几 个 方面 来 理解 

(1) 特质 是 一 组 具有 内 部 相关 的 行为 的 概括 ， 具 有 一 定 的 
抽象 性 。 例 如 : 某 人 在 公共 汽车 上 总 是 给 老 、 弱 、 病 、 残 和 
小 孩 让 座 ， 在 生活 中 总 是 能 对 他 人 友好 相 待 ， 热 情 相助 等 等 ， 
则 可 以 称 该 人 具有 “善良 ”的 特质 ， 因 为 在 他 身上 总 是 表现 出 
一 组 具有 内 部 相关 的 行为 《让 座 、 友 好 待人 、 热 情 助人 )， 这 
种 行为 经 概括 后 便 具 有 抽象 性 了 。 如 果 一 个 人 能 在 各 种 测验 中 
获得 好 成 绩 ， 在 工作 和 生活 中 总 能 想 出 好 主意 解决 难题 ， 则 该 
人 具有 “聪明 ”的 特质 。 
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(2) 特质 是 “一 种 一 般 的 神经 心理 系统 ，…… 它 可 以 综合 
不 同 的 刺激 ,使 人 对 这 些 刺激 做 出 相同 的 反应 ” (G. All- 
port)。 例 如 ， 菜 人 在 公共 汽车 上 如 果 只 给 熟人 和 朋友 让 座 而 
不 理 卢 不 认识 的 老 、 弱 、 病 、 残 ， 则 不 能 说 他 具有 “善良 ”的 
特质 。 因 为 ,，“ 养 良 ” 特 质 要 求 他 对 各 种 不 同 的 刺激 ( 老 、 弱 ， 
病 、 残 ) 都 能 数 出 相同 的 反应 (让座)。 

(3) 特质 是 一 个 人 身上 比较 稳定 的 特点 。 人 的 心理 活动 是 
十 分 丰富 的 ， 并 不 是 他 的 每 一 种 心理 活动 都 会 表现 为 -- 种 特 
质 ， 而 是 那些 经 常 出 现 的 比较 稳定 的 心理 特征 才 称 得 上 特质 。 
大 们 党 说 , “智者 千 虑 ， 必 有 一 失 ”， 但 我 们 在 评价 他 时 并 不 会 
因 他 一 时 之 失 而 否 认 他 是 个 智者 。 例 如 ， 诸 葛 亮 尽管 也 吃 过 败 
会， 但 我 们 仍然 认为 他 是 个 智者 。 

(4) 一 个 人 的 精神 而 犁 (人 格 ) 是 由 多 种 特质 分 多 个 层次 
有 机 组 合 而 成 的 。 不 同 的 人 往往 具有 不 同 的 特质 组 合 ， 即 使 其 
特质 类 型 相同 ， 其 特质 水 平 往往 也 会 有 高 低 之 分 (尽管 水 平 的 
高 低 只 具有 相对 意义 )。 心 理学 家 在 研究 人 的 人 格 特征 时 ， 一 
般 是 把 它们 分 解 成 多 个 单元 〈 特 质 ) 和 层次 进行 分 析 的 ， 并 认 
为 ， 人 格 就 是 多 个 特质 多 种 层次 的 有 机 组 合 。 心 理 测量 的 任务 
就 是 要 区 别 出 不 同 个 体 在 能 力 、 个 性 等 特质 上 的 差异 。 

(5) 特质 可 以 决定 一 个 人 对 特定 刺激 的 反应 倾向 ， 可 以 对 
人 的 行为 进行 某 种 预测 。 心 理 测量 的 最 终 目 的 就 是 要 了 解 人 的 
特点 ， 并 对 人 的 行为 倾向 作出 预测 。 


二 、 心 理 特质 的 可 测 性 


心理 特质 是 一 种 客观 存在 , “ 凡 客 观 存在 的 事物 都 有 其 数 
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量 ” (E.L.Thorndike)， “ 凡 有 数量 的 东西 都 可 以 油 量 ” 
(要 .A.MeCall)。 这 就 是 CTT 的 心理 特质 的 可 测 性 假设 。 

事实 上 ， 心 理 特质 是 一 种 相对 稳定 的 东西 ， 我 们 可 以 有 许 
多 办 法 对 它 进行 定义 ， 也 可 以 通过 特殊 的 测量 工具 对 它 进 行 测 
量 。 比 如 ，、 关 于 人 的 智力 ， 目 前 已 有 了 比较 好 的 测量 办 法 ， 关 
于 人 的 个 性 ， 其 测量 方法 也 正 逐 渐 成 熟 ， 并 在 发 挥 着 重要 
作用 。 

当然 ， 心 理 测量 没有 物理 测量 那样 容易 。 因 为 人 的 心理 特 
质 上 共有 比较 幅 项 的 特性 ， 我 们 无 法 直接 对 它 进 行 测 最 ， 只 能 通 
过 被 试 对 一 些 刺激 《如 考题 ) 的 行为 反应 【考试 答案 等 ) 特点 
来 推测 其 心理 特质 的 特点 和 水 平 。 此 外 ， 心 理 测量 的 工具 也 不 
易 制 作 ， 其 使 用 方法 也 比较 麻烦 ， 这 都 给 心理 测量 I 了: 作 增 加 了 
难度 。 


第 二 节 ”测量 误差 及 其 来 源 
一 、 测 量 误差 的 含义 


测量 误差 指 的 是 在 测量 过 程 中 由 那些 与 测量 目的 无 关 的 变 
化 因素 所 产生 的 一 种 不 准确 或 不 一 致 的 测量 效应 。 这 里 ， 我 们 
要 从 两 方面 来 进行 理解 : 其 一 ， 测 景 误差 是 由 那些 与 测量 目的 
无 关 的 变 因 所 致 其 二 ,测量 误差 表现 为 不 准确 或 不 一 致 两 种 
方式 。 

例如 ， 当 我 们 去 小 捧 上 买 水 果 时 ， 若 捧 主 偷 换 了 秤 达 ， 其 
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实测 结果 一 定 不 准 (误差 的 表现 方式 之 一 )。 假 若 摊 主 的 秤 是 
合乎 要 求 的 ， 但 他 操作 时 故意 快速 地 机 些 手法 ， 则 其 测量 结果 
一 定 会 与 你 复 秤 时 所 得 结果 不 一 臻 《误差 的 表现 方式 之 二 )。 
这 里 ， 误 差 的 产生 全 是 由 那些 与 测量 目的 无 关 的 变 因 (修改 测 
量 工具 、 不 正确 地 使 用 工具 ) 所 致 。 


二 、 测 量 误差 的 种 类 


和 物理 测量 一 样 ， 心 理 测量 也 有 两 种 误差 ， 即 随机 误差 种 
系统 误差 。 所 请 随机 误差 即 是 那 种 由 与 测量 目的 无 关 的 、 偶 然 
因素 引起 的 、 而 又 不 易 控制 的 误差 。 它 使 多 次 测量 产生 了 不 一 
致 的 结果 ， 其 方向 和 大 小 的 变化 完全 是 随机 的 ， 只 符合 某 种 统 
计 规 律 。 例 如 ， 在 进行 手枪 射击 时 ， 新 手 往往 很 难 控制 手臂 的 
轻微 摆动 ， 结 果 多 次 射击 的 成 绩 很 不 一 致 ， 造 成 误差 ， 这 种 误 
差 就 是 随机 误差 。 

所 谓 系统 误差 即 是 那 种 由 与 测量 目的 无 关 的 变 因 引起 的 一 
种 恒定 而 有 规律 的 效应 。 这 种 误差 稳定 地 存在 于 每 一 次 测量 之 
中 ， 此 时 尽管 多 次 测量 的 结果 非常 一 致 ， 但 实测 结果 仍 与 真实 
数值 有 所 差异 ， 是 不 正确 的 。 鲍 如 ， 在 射击 过 程 中 ， 尽 管 射击 
手 非常 优秀 ,每 次 结果 都 很 一 致 ， 但 若是 枪 的 准 心 有 点 毛病 ， 
则 其 射击 结果 仍 将 会 有 稳定 的 偏差 。 又 如 ， 在 进行 数学 测验 
时 ， 若 有 一 道 10 分 的 题 的 标准 答案 给 错 ， 则 全 体 正 确 作 答 该 
题 的 考生 的 成 绩 将 普遍 下 降 10 分 ， 这 也 是 系统 误差 。 若 是 教 
师 评分 标准 宽 严 不 一 ， 甚 至 是 随心 所 欲 ， 则 考生 的 成 绩 还 会 出 
现 较 大 的 随机 误差 。 

由 上 可 知 ， 系 统 误 差 只 影响 测量 的 准确 性 、 不 影响 稳定 
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性 。 而 随机 误差 既 影 响 稳定 性 又 影响 准确 性 。 
三 、 测 量 误差 的 来 源 


在 物理 测量 中 ， 误 差 来 源 主 要 有 3 个 ， 即 测量 工具 、 被 测 
对 象 以 及 施 测 过 程 。 当 被 测 对 象 本 身 不 稳定 或 测量 工具 不 科 
学 ,或 施 测 时 的 条 件 、 操 作 等 不 合 要 求 时 ,测量 便 必 然 会 出 现 
误差 。 同样 ， 心 理 测量 的 误差 也 来 自 3 个 方面 ， 即 测量 工具 、 
被 测 对 象 和 施 测 过 程 。 

在 测量 工 其 方面 ， 心 理 测 景 与 物理 测量 有 所 不 同 。 心 理 测 
量 工具 通常 是 一 套 以 测验 (问卷) 为 核心 的 刺激 反应 系统 《 通 
常 称 作 量 表 )。 当 量 表 在 测 查 人 的 某 种 心理 特质 时 ， 若 项 目 所 
测 的 东亚 与 我 们 欲 测 的 目的 之 间 出 现 偏差 〈《 如 项 目 取样 太 少 或 
太 偏 )， 则 测量 会 出 现 误差 。 例 如 ， 当 语文 考试 出 现 偏 题 时 ， 
押 中 题 的 人 就 会 得 到 好 成 绩 ， 没 押 中 题 的 人 人 则 得 不 到 好 成 绩 ， 
无 法 反应 各 人 的 真实 水 平 。 又 如 ， 数 学 测验 的 好 坏 若 取决 于 文 
字 理 解 能 力 的 高 低 ， 则 该 测量 也 会 出 现 误 差 。 当 一 个 量 表 对 同 
一 批 人 前 后 几 次 测 查 结果 极 不 一 致 时 ， 则 认为 该 量 表 缺乏 足够 
的 稳定 性 。 心 理 测 量 量 表 是 否 稳定 、 是 否 真 正 测 到 了 我 们 所 要 
测 的 东西 是 测量 工具 造成 误差 的 两 种 主要 原因 。 

在 测量 对 象 方面 ， 造 成 测量 误差 的 主要 产 因 是 受 测 者 真正 
水 平 是 否 得 到 正常 发 挥 。 一 般 地 ， 受 测 者 的 某 种 心理 特质 水 平 
是 相对 稳定 的 ,但 是 他 在 接受 测量 时 的 生理 和 心理 状态 会 影响 
其 水 平 的 正常 发 挥 。 比 如 ， 当 受 测 者 过 分 疲劳 ， 或 突然 生病 ， 
或 过 分 焦虑 、 紧 张 时 其 测量 成 绩 会 低 于 其 真实 水 平 。 恕 果 他 在 
进行 测量 的 技能 技巧 方面 经 验 不 足 ， 也 同样 会 出 现 测 量 误差 - 
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此 外 ， 受 测 者 应 试 动 宙 的 强 弱 、 受 训 时 间 的 长 短 、 受 训 内 容 的 
多 少 、 管 题 反 应 的 快慢 等 等 都 会 产生 测量 误差 。 

在 施 测 过 程 方面 ， 产 生 测量 误差 的 原因 主要 是 一 些 偶然 因 
素 〈 人 恒定 因素 较 易 控制 )。 比 如 ， 在 物理 环境 方面 : 施 测 现场 
的 温度 、 光 线 、 声 音 、 桌 面 好 坏 、 空 间 阅 窄 等 等 会 造成 误差 。 
在 主 试 者 方面 : 主 试 者 的 年 龄 、 人 性 别 、 外 表 及 其 施 测 时 的 言谈 
举止 、 表 情 动 作 、 是 否 按 规定 实施 测验 等 等 也 都 会 造成 误差 。 
此 外 ， 评 分 记分 环节 也 是 容易 出 现 差错 的 地 方 。 还 有 ， 若 是 出 
现 意外 干扰 (如: 考场 突然 停电 、 有 人 作弊 、 计 时 表 停 了 、 试 
卷 印刷 或 装订 出 错 等 )， 则 同样 会 让 考生 分 心 或 造成 考场 混乱 ， 
导致 测量 误差 。 


第 三 节 ” 真 分 数 及 其 有 关 的 假设 
一 、 真 分 数 的 含 又 


人 的 心理 特质 水 平 经 测量 之 后 应 表现 为 一 个 数值 。 然 而 ， 
由 于 测量 误差 的 存在 ， 实 际 测 得 的 数值 往往 难以 和 该 特质 的 真 
正 水 平 值 完全 一 致 ， 它 总 会 略 高 于 或 略 低 于 其 真实 水 平 值 ， 某 
些 时 候 还 会 严重 偏离 其 真实 水 平 值 。 例 如 ， 我 们 平常 所 说 的 
“x x 考生 基本 上 考 出 了 其 应 有 水 平 ”或 “x x 被 坛 的 人 格 特 
点 被 基本 上 测 出 来 了 ”或 “x x 人 这 次 测验 超 水 平 发 挥 ”等 
等 ， 就 是 对 这 种 测量 现象 的 一 种 描述 。 为 研究 方便 ， 我 们 把 反 
映 被 试 某 种 心理 特质 真正 水 平 的 那个 数值 称 作 该 特质 的 真 分 数 
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{True Score、 简 称 为 了 分 数 )， 把 实测 的 分 数 称 作 该 特质 的 观 
察 分 数 (Observed Score)。 当 观察 分 数 接近 真 分 数 时 ， 就 说 这 
次 测量 的 误差 较 小 。 

显然 ， 真 分 数 是 一 个 在 理论 上 构想 出 来 的 抽象 概念 ， 在 实 
际 测量 中 是 很 难得 到 的 。 因 为 任何 一 种 测量 ， 无 论 它 有 多 人 么 科 
学 ， 总 会 存在 误差 。 我 们 只 能 通过 改进 测量 工具 、 完 善 操作 方 
法 等 办 法 来 使 观察 值 尽量 接近 真 分 数 。 只 要 观察 分 数 与 真 分 数 
之 打 的 误差 不 是 太 大 ， 或 者 说 误差 被 控制 在 可 接受 的 范围 之 
内 ， 我 们 的 测量 也 就 可 以 看 作 是 可 接受 的 测量 了 。 


二 、 数 学 模型 及 其 假设 


既然 观察 分 数 很 难 等 于 真 分 数 ， 那 二 者 之 间 是 个 什么 关系 
呢 ? 经 典 测验 理论 假定 ， 观 察 分 数 〔〈 记 为 X) 与 真 分 数 〈《T) 
之 间 是 一 种 线性 关系 ， 并 只 相差 一 个 随机 误差 ( 记 之 为 E)。 
即 : X=T+E (3.1) 
这 就 是 CTT 的 数学 模型 。 

根据 这 一 模型 ， 我 们 可 以 引伸 出 3 个 相关 联 的 假设 公理 
《Gulliksen，1950): 

@@ 若 一 个 人 的 某 种 心理 特质 可 以 用 平行 的 测验 反复 测量 足 
够 多 次 ， 则 其 观察 分 数 的 平均 值 会 接近 于 真 分 数 。 

即 : E(X) =T 或 E(E) =0 

@ 真 分 数 和 误差 分 数 之 间 的 相关 为 零 。 

即 : p {T, E) =0 

@ 各 平行 测验 上 的 误差 分 数 之 间 相 关 为 零 。 
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即 : p (El, E2) =0 

其 中 ,第 @、 第 条 四 假设 意 在 说 明 开 是 个 随机 误差 ， 没 
有 包含 系统 误差 在 内 ， 第 条 假设 则 在 于 说 明 EF 是 个 服从 均 
值 为 零 的 正 态 分 布 的 随机 变量 。 

对 CTT 的 这 一 数学 模型 及 其 假设 公理 ,我 们 可 以 从 以 下 
3 个 方面 来 加 以 理解 。 首 先 ， 在 问题 的 研究 范围 之 内 ， 反 映 个 
体 某 种 心理 特质 水 平 的 真 分 数 是 假定 不 会 变 的 ， 测 量 的 任务 就 
是 估计 这 一 真 分 数 的 大 小 ， 其次， 观察 分 数 被 假定 等 于 真 分 数 
与 误差 分 数 之 和 。 即 ， 假 定 更 察 分 数 与 真 分 数 之 间 是 线性 关 
系 ， 而 不 是 其 他 关系 ; 第 三 ， 测 量 误 差 是 完全 和 随机 的 ， 并 服从 
均值 为 零 的 正 态 分 布 。 它 不 仅 独立 于 所 测 特质 真 分 数 ， 而 且 独 
立 于 所 测 特质 以 外 的 其 他 任何 变量 ,这 就 保证 了 误差 E 中 不 
含有 系统 误差 成 分 。 此 外 ， 各 平行 测验 上 误差 分 数 间 的 相互 独 
立 也 进一步 保证 了 下 的 随机 人 性， 使 得 观察 分 的 均值 可 以 稳定 
地 趋 于 真 分 数 。 

值得 注意 的 是 ， 模 型 假设 中 所 提 到 的 平行 测验 是 个 重要 的 
概念 。CTT 认为 : 如 果 两 个 题目 不 同 的 测验 测 的 是 间 一 特质 ， 
并 且 题 目 形式 、 数 量 、 难 度 、 区 分 度 以 及 测 查 等 值 团 体 后 所 得 
分 数 的 分 布 (多 和 S) 都 是 一 致 的 ， 则 这 两 个 测验 被 称 作 是 被 
此 平行 的 测验 。 

不 过 ， 用 许多 个 彼此 平行 的 测验 反复 测量 同一 个 人 的 同一 
种 心理 特质 的 做 法 往往 是 很 难 实现 的 ， 因 此 ，CTT 的 模型 及 
假设 只 是 一 种 理论 上 的 描述 。 然 而 ， 有 了 这 一 模型 和 假设 之 
后 ， 却 能 帮助 我 们 解决 测验 中 的 许多 实际 问题 。 

事实 上 ， 我 们 在 实施 一 个 标准 化 测验 时 ， 并 不 是 用 许多 平 
行 测验 来 反复 测 查 同一 批 被 试 ， 而 是 用 一 个 测验 来 同时 测 查 许 
多 被 试 。 由 于 每 个 人 的 误差 都 是 随机 的 ， 且 服从 均值 为 零 的 正 
态 分 布 ， 所 以 ， 当 被 试 团体 足够 大 时 ,团体 内 的 各 种 随机 误差 


第 三 章 经典 测验 理论 的 基本 假设 “67 ， 





会 相互 抵消 ， 整 个 团体 的 观察 分 数 的 均值 会 趋 近 于 该 团体 真 分 
数 的 均值 。 这 里 ， 多 个 被 试 接受 同一 个 油 验 相当 于 多 个 平行 测 
验 反复 测 查 一 个 具有 团体 真 分 数 均值 水 平 的 一 个 个 体 。 因 此 ， 
CTT 的 理论 模型 和 假设 便 派 上 了 用 场 。 
根据 CTT 模型 和 假设 ,我 们 很 容易 推导 出 如 下 关系 : 
S = S24+ SE (3.2) 
即 ; 在 一 次 测量 中 ， 被 试 观察 分 数 的 方差 等 于 其 真 分 数 方差 与 
误差 分 数 方差 之 和 。 
注意 ， 公 式 (3.2) 中 只 涉及 到 了 随机 误差 的 变异 ， 系 统 
误差 的 变异 包含 在 真 分 数 的 变异 之 中 。 即 ， 真 分 数 还 可 以 分 成 
两 部 分 : 与 测量 目的 有 关 变 异 ( 纺 ) 和 与 测量 目的 无 关 的 变 
异 (S)， 即 : 
S3 =S3Y+Si (3.3) 
于 是 (3.2) 可 改写 成 : 
S2 = SLS? + S2 (3.4) 
这 就 是 说 ,一 次 测验 中 ， 一 个 团体 的 实测 分 数 之 间 的 变异 性 是 
由 与 测量 目的 有 关 的 变异 数 (S$)、 稳 定 的 但 出 自 无 关 来 源 的 
变异 数 (Sf) 和 测量 误差 的 变异 数 《Si) 所 决定 的 。 


练习 与 思考 


1. 简 述 “心理 特质 ”的 含义 。 

2. 心理 测量 的 误差 来 源 主 要 包括 哪些 ? 

3.CTT 模型 及 其 假设 的 主要 内 容 是 什么 ? 

4" . 根据 CTT 的 数学 模型 及 其 假设 ,推导 关系 式 (3.2)。 
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本 章 提要 : 

@ 测 量 信 度 的 概念 及 作用 
人 信息 的 入 计 方法 
合影 响 信 度 的 主要 因素 
全 提高 信 度 的 常用 方法 
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在 各 种 测量 活动 中 ， 常 常 可 以 看 到 测量 者 进行 复 测 的 行 
为 。 如 果 两 次 所 得 的 测量 结果 比较 一 致 ， 则 测量 者 就 会 认定 此 
测 值 ; 如 果 两 次 所 测 结果 相当 不 一 致 ， 调 量 者 就 不 敢 贸然 认定 
其 中 的 任何 一 个 量 值 。 同 样 ， 在 心理 油 量 工作 中 ， 测 晶 的 结果 
也 必须 是 经 得 起 “ 复 测 ” 检 验 的 。 倘 若 不 同 次 测量 的 结果 有 较 
大 的 差异 ， 则 这 种 测量 的 结果 是 难以 让 人 信服 的 。 本 章 所 讨论 
的 中 心 话题 便 是 测量 结果 的 稳定 性 问题 ， 即 测量 的 信 度 (reli- 
ability) 问题 。 


第 一 节 ”信和 度 概述 
一 、 什 么 是 信和 度 


信 度 《reliability) 指 的 是 测量 结果 的 稳定 性 程度 。 换 句 话 
说 ,车 能 用 同一 测量 工具 反复 测量 某 人 的 同一 种 心理 特质 ， 则 
其 多 次 测量 的 结果 和 间 的 一 致 性 程度 就 叫 信 和 度 ， 有 时 也 叫 测量 的 
可 靠 性 。 

一 般 来 说 ， 一 个 好 的 测量 必须 具有 较 高 的 信 度 ， 也 即 是 
说 ， 一 个 好 的 测量 工具 ， 只 要 遵守 操作 规则 ， 其 结果 就 不 应 随 
工具 的 使 用 者 或 使 用 时 间 等 方面 的 变化 而 发 生 较 大 变化 。 例 
如 ， 标 准 的 锅 尺 是 测量 长 度 的 一 种 好 的 工具 ， 只 要 操作 方法 得 
当 ， 无 论 何 时 ,也 无 论 何人 去 测量 同一 张 桌子 的 高 度 ， 其 结果 
应 是 基本 一 致 的 。 这 说 明 其 信和 度 较 高 。 不 过 ， 如 果 所 用 的 是 一 
种 具有 较 大 弹性 的 皮 愉 ， 则 不 同 的 人 或 同一 个 人 在 不 同 的 时 候 
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去 测量 同一 张 桌子 的 高 度 ， 其 结果 必然 会 有 较 大 的 差异 。 这 说 
明 这 种 测量 的 信 度 不 高 。 
当然 ， 心 理 测量 要 比 物 理 测 量 复 杂 些 ， 我 们 不 太 可 能 用 同 
一 种 量 表 去 反复 测量 一 个 人 的 同一 种 心理 特质 。 例 如 ， 蘑 一 数 
学 测验 就 不 能 反复 使 用 在 同一 批 人 人 身上， 否则， 测验 结果 必然 
会 越 测 越 好 。 因 此 ， 信 和 度 的 定义 还 应 寻求 更 实际 一 些 的 办 法 ， 
以 下 就 是 另外 3 种 等 价 的 信和 度 定义 。 
定义 1: 信和 度 乃 是 一 个 被 测 团体 的 真 分 数 的 变异 数 与 实 得 
分 数 的 变异 数 之 比 。 即 : 
| Tu = 3/8 (4.1) 
式 中 nx 代表 测量 的 信和 度 ， 时 代表 真 分 数 变异 ，s: 代表 总 
变异 数 ， 即 实 得 分 数 的 变异 。 
定义 2; 信和 度 乃 是 一 个 被 试 团体 的 真 分 数 与 实 得 分 数 的 相 
关系 数 的 平方 。 即 ; 
rsx = pix . (4.2) 
定义 3; 信和 度 旋 是 一 个 测验 X (A 卷 ) 与 它 的 任意 一 个 
“平行 测验 ”X”(B 卷 ) 的 相关 系数 。 即 : 
Txx = Pxr' (4.3) 
在 上 述 3 个 定义 中 ， 信 度 是 就 一 批 人 的 数据 而 言 的 ， 并 
不 是 用 同一 种 工具 反复 测量 同一 个 人 (定义 3 除外 )。 这 样 一 
来 ,定义 的 操作 性 程度 提高 了 。 不 过 ， 真 分 数 是 我 们 不 知道 的 
值 ， 是 测量 的 测 查 对 象 ， 因 此 ， 定 义 1! 和 定义 2 仍 只 具有 理论 
意义 ， 只 有 定义 3 才 具 有 实际 意义 。 
此 外 ， 描 述 测 量 一 致 性 程度 的 指标 还 可 以 用 信和 度 指 数 
《pxr)， 它 实际 上 是 信和 度 系 数 的 平方 根 。 
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二 、 信 度 的 作用 


信和 度 是 衡量 一 个 量 表 质量 高 低 的 重要 指标 之 一 ， 信 和 度 不 合 
要 求 的 量 表 是 不 能 使 用 的 ， 人 们 在 编制 和 使 用 量 表 时 都 特别 重 
视 测量 的 信和 度 。 具 体 地 说 ， 信 和 度 的 作用 表现 在 以 下 岂 个 方面 。 

1. 信和 度 是 测量 过 程 中 所 存在 的 随机 误差 大 小 的 反映 

如 果 竹 度 很 低 ， 浏 量 的 随机 误差 就 很 大 ， 测 量 的 结果 就 会 
与 真 分 数 发 生 较 大 偏差 。 而且， 这 种 偏差 完全 是 随机 决定 的 ， 
这 就 让 人 无 法 相信 测量 的 结果 。 和 值得 指出 的 是 ,测量 中 的 系统 
误差 与 信和 度 无 关 。 因 此 系统 误差 只 对 测量 结果 产生 恒定 的 影 
喀 ， 面 不 会 使 测量 结果 上 下 波动 。. 

2. 信和 度 可 以 用 来 解释 个 人 测验 分 数 的 意义 

从 理论 上 讲 ， 一 个 人 的 真 分 数 本 来 是 用 同一 个 测验 对 他 反 
复 施 测 所 得 的 平均 值 ， 其 误差 则 是 这 些 实 测 值 的 标准 差 。 然 
而 ， 这 种 微 法 是 行 不 通 的 。 因 此 ， 我 们 可 以 用 一 个 团体 (人数 
足够 多 ) 两 次 施 测 的 结果 来 代 兰 对 同一 个 人 反复 施 测 ， 以 估计 
测量 误差 的 变异 数 。 此 时 ,每 个 人 两 次 测量 的 分 数 之 差 可 以 构 
成 一 个 新 的 分 布 ， 这 个 分 布 的 标准 差 就 是 测量 的 标准 误 ， 它 是 
此 次 测量 中 误差 大 小 的 客观 指标 ， 有 了 这 一 指标 ， 我 们 就 可 以 
对 团体 中 任何 一 个 人 的 测验 成 绩 做 出 恰当 的 解释 〈 部 ， 能 通过 
区 间 估 计 的 办 法 指出 测量 的 精度 )。 一 个 测量 的 标准 误 可 用 下 
式 计算 : 

SE=Sx VL- mx (4.4) 

{ 式 中 SE 为 测量 的 标准 误 ，Sx 为 实 得 分 标准 差 ，r,, 是 测量 的 
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信和 度 。) 

3. 信和 度 可 以 帮助 进行 不 同 测验 分 数 的 比较 

通常 ,来自 不 同 的 测验 的 原始 分 数 是 不 能 直接 进行 比较 
的 ， 而 必须 转化 成 标准 分 数 再 进行 比较 。 具 体 办 法 是 采用 “ 差 
异 的 标准 误 ” 来 进行 差异 的 显著 性 检验 ， 其 公式 为 : 

SFEd=S V2- ma 二 rw (4.5) 

( 式 中 ，S 为 相同 尺度 (如 T 分 数 的 S= 10) 的 标准 分 数 的 标 
准 差 ，rx 和 ry 分 别 是 两 个 测验 的 信和 度 系数 。) 

值得 指出 的 是 ， 人 一 个 测验 可 以 有 多 个 信和 度 估计 值 ， 因 而 
其 误差 估计 什 也 会 有 多 个 ， 在 实际 工作 中 要 注意 选择 。 急 本 理 
论 很 定 同一 个 团体 中 所 有 人 的 测量 误差 都 相同 的 ， 但 实际 上 水 
平 高 的 人 与 水 平 低 的 人 在 做 测量 时 会 有 不 同 的 随机 误差 。 国 
油 量 的 结果 不 能 僵硬 地 看 成 是 一 个 点 ， 而 应 看 成 是 一 个 以 该 点 
为 中 心 ， 以 SE 的 某 个 倍数 为 半径 上 下 波动 的 一 个 范围 (区 间 
估计 )。 


第 二 节 ”信和 度 的 估计 方法 


信 度 是 反映 测量 中 随机 误差 大 小 的 指标 。 由 于 造成 测量 的 
随 宙 误差 的 方式 或 来 源 多 种 多 样 ， 所 以 信 度 的 估计 方法 也 多 种 
多 样 。 下 面 所 介绍 的 信 度 估计 方法 是 分 别 测量 信 度 的 某 一 方面 
的 ,使 用 时 要 特别 注意 它 的 含义 及 适用 范围 , 
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一 、 重 测 信 度 


1. 舍 义 和 计算 

重 测 信和 度 (test - retest reliability) 指 的 是 用 同一 个 量 表 对 
同一 组 被 试 施 测 两 次 所 得 结果 的 一 致 性 程度 ， 其 大 小 等 于 同一 
组 被 试 在 两 次 测验 上 所 得 分 数 的 皮尔 逊 积 差 相 关系 数 〈 详 见 有 
关 统 计 书 ): 

ra= [> (x-i) (y-¥)] /VY (x-7) > (y-y) (4.6) 

({ 式 中 x 及 是 第 一 次 测量 的 实 得 分 及 实 得 分 的 平均 值 ，y 及 了 
”是 第 二 次 测量 的 实 得 分 及 实 得 分 的 平均 值 ，r, 是 重 测 信和 度 ) 

当 信 度 值 较 大 时 ,说 明 前 、 后 两 次 测量 的 结果 比较 一 致 ， 
测量 工具 比较 稳定 ， 被 试 的 心理 特质 受 被 试 状态 和 环境 变化 的 
影响 较 小 。 用 这 种 测量 结果 来 预测 人 在 短期 内 的 情况 是 比较 好 
的 ， 因 为 该 绪 果 具有 较 好 的 跨 时 间 上 的 稳定 性 。 

2. 使 用 的 前 提 条 件 

重 测 信和 度 的 特点 是 用 同一 工具 对 同一 批 人 测 了 两 次 ， 
此 , 它 只 能 在 允许 重 测 的 情况 下 进行 计算 。 具 体 地 说 ， 它 必须 
满足 3 个 条 件 : 所 测量 的 心理 特性 必须 是 稳定 的 。 例 她 ， 一 
人 成 人 的 性 格 特点 一 般 是 稳定 的 ， 所 以 许多 人 格 测验 常 使 用 重 
测 信 度 。 但 是 ， 刚 人 学 儿童 的 识 宇 最 是 极 不 稳定 的 ， 只 要 两 次 
施 测 的 间隔 时 间 稍 长 ， 上 儿童 的 识字 量 就 会 有 很 大 变化 。 因 此 ， 
重 测 信和 度 不 能 用 于 这 种 情况 ， 因 为 测量 结果 的 不 一 致 很 可 能 是 
被 试 水 平 的 变化 所 致 ， 而 不 能 说 明 测 景 工具 是 否 稳 定 。 避 遗忘 
和 练习 的 效果 基本 上 相互 抵消 。 在 做 第 一 次 测验 时 ， 被 试 可 能 
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会 获得 某 种 技巧 ,但 只 要 间隔 的 时 间 适 度 ， 这 种 练习 效果 会 基 
本 上 被 遗忘 挤 的 。 至 于 两 次 测验 的 间隔 时 间 ， 可 以 是 几 分 钟 ， 
几 小 时 ， 也 可 以 是 几 个 月 甚至 是 几 年 ， 这 要 根据 问题 的 性 质 和 
测量 目的 而 定 。 通 常 ， 智 力 测验 的 间隔 时 间 一 般 在 6 个 月 左 
可 。 图 在 两 次 施 测 的 间隔 时 期 内 ， 被 试 在 所 要 测 查 的 心理 特质 
方面 没有 获得 更 多 的 学 习 和 训练 。 这 一 点 ， 也 实际 上 是 要 保证 
被 试 具有 稳定 的 心理 特质 。 

值得 注意 的 是 ， 同 样 一 个 量 表 ， 随 着 第 二 次 测量 的 时 间 不 
同 , 它 可 以 有 不 同 的 重 测 信和 并 。 因 此 ， 在 报告 重 测 信 度 时 ， 应 
说 明 两 次 施 测 的 间隔 ， 以 及 在 此 期 间 内 被 试 的 有 关 经 历 。 例 
如 ， 在 中 国 修 订 《 韦 氏 儿 童 智 力量 表 手 册 (C 一 WISC)》 中 ， 
就 曾 对 重 测 信和 度 的 计算 报告 了 被 试 情况 (6 ~ 16 岁 城市 儿童 
151 名 ， 农 村 儿童 74 名 且 各 年 龄 儿童 分 配 较 均匀 )， 并 报告 了 
两 次 测验 的 间隔 时 间 《2~7 周 ) 以 及 两 次 的 相关 系数 《城市 ; 
0.59~0.86， 农 村 : 0.59 ~ 0.81) 等 。 


二 、 复 本 信 度 


1. 含义 与 计算 

复 本 信和 度 (Alternate - form reliability) 指 的 是 两 个 平行 的 
测验 测量 同一 批 被 试 所 得 结果 的 一 致 性 程度 ， 其 大 小 等 于 同一 
批 被 试 在 两 个 复 本 测验 上 所 得 分 数 的 皮尔 还 积 差 相 关系 数 。 

不 过 ， 两 个 复 本 测验 实施 的 时 间 不 同 ， 复 本 信 产 所 表达 的 
含义 略 有 不 同 。 如 果 两 个 复 本 洞 验 是 同时 连续 施 测 的 ， 则 称 这 
种 复 本 信和 度 为 等 值 性 系数 。 等 值 性 系数 的 大 小 主要 反映 着 两 个 
复 本 测验 的 题目 差别 所 带 来 的 变异 情况 。 如 果 两 个 复 本 测验 是 
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相距 一 自 时 间 分 两 次 施 测 的 ， 则 称 这 种 复 本 信 度 为 稳定 性 与 等 
值 性 系数 。 此 时 ， 两 个 题目 间 的 差别 、 两 次 施 测 时 的 情境 、 被 
试 特质 水 平等 方面 的 差别 都 会 成 为 测验 结果 不 一 致 的 重要 原 
因 。 与 其 他 信 度 系数 相 比 ， 此 种 复 本 信和 度 最 小 ， 也 即 是 说 ， 稳 
定性 与 等 值 性 系数 是 对 信 度 的 最 严格 的 检验 ， 其 值 和 最低。 (在 
实际 工作 中 .为 抵消 施 测 的 舌 序 效应 ， 一 般 可 以 随机 地 选 出 一 
半 被 试 先 做 A 卷 后 艇 B 卷 ， 另 一 半 被 试 先 做 B 卷 后 做 A 卷 。) 

2. 使 用 前 提 条 件 

计算 复 本 信和 度 的 条 件 之 一 是 首先 要 构造 出 两 份 或 两 份 以 上 
真正 平行 的 测验 〈 即 A、B 卷 )。 什 么 样 的 测验 才 称 得 上 真正 
平行 的 呢 ? 这 就 是 : 复 本 测验 之 间 必 须 在 题目 内 容 、 数 量 、 形 
式 、 难 度 、 区 分 度 、 指 导语 、 时 限 以 及 所 用 的 例题 、 公 式 和 测 
验 等 其 他 方面 都 相同 或 相似 。 换 句 话说 ,平行 测验 就 是 那 种 用 
不 同 的 题 自 测量 同样 的 内 容 而 且 其 测验 结果 的 平均 值 和 标准 差 
都 相同 的 两 个 测验 。 显 然 ， 严 格 的 平行 测验 是 很 难 构造 出 来 的 。 

计算 复 本 信和 度 的 条 件 之 二 便 是 被 试 要 有 条 件 接受 两 个 测 
验 。 这 种 条 件 主要 取决 于 时 间 、 经 费 等 几 个 方面 。 

另外 ， 在 使 用 复 本 信和 度 时 ， 虽 然 能 克服 重 测 信和 庶 的 一 些 缺 
点 ,但 被 试 在 做 第 二 测验 时 仍 会 受到 练习 和 记忆 等 因素 的 影 
响 、 一 些 解 题 的 策略 等 技能 技巧 也 会 产生 迁移 效应 。 对 于 稳定 
性 与 等 值 性 系数 ， 在 报告 结果 时 ， 也 应 报告 两 次 施 测 的 间隔 ， 
以 及 在 此 间隔 内 被 试 的 有 关 经 历 。 
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1. 含义 及 计算 
分 半 信 度 《split - half reliability) 指 的 是 将 一 个 测验 分 成 
对 等 的 两 半 后 ， 所 有 被 试 在 这 两 半 上 所 得 分 数 的 一 致 性 程度 : 
分 半 信 度 可 以 和 等 值 性 系数 一 样 解 释 ， 即 可 以 把 对 等 的 两 
半 测 验 看 成 是 在 最 短 时 上 距 内 施 测 的 两 个 平行 测验 。 此 外 ， 由 于 
分 半 信 度 描述 的 是 两 半 题 目 间 的 一 致 性 ， 所 以 它 有 时 也 被 称 作 
内 部 一 致 性 系数 。 
分 半 信 度 的 计算 方法 和 等 值 复 本 信 度 的 计算 方法 类 似 ， 只 
不 过 被 试 在 两 半 测 验 上 得 分 的 相关 系数 只 是 半 个 测验 的 信和 度 ， 
还 必须 用 斯 皮尔 曼 一 布朗 公式 加 以 校正 : 
Tu = 2rThp/ (1 +rpn) (4.7) 
式 中 mm 为 两 半分 数 间 的 相关 系数 ， rx 为 整个 测验 的 信和 度 值 。 
不 过 ， 斯 一 布 公式 只 有 在 两 半 测 验 分 数 的 变异 数 (Si 和 
1) 相等 时 才能 使 用 。 否 则 ， 我 们 就 应 选择 下 述 两 个 等 价 的 公 
式 之 一 ; 
(1) 弗 朗 那 根 (Flanagan) 公式 : 
‘r=2 [1- (S:+ St) /S:] (4.8) 
式 中 Sz 和 红 分 别 表示 所 有 被 试 在 两 半 测 验 上 得 分 的 变异 数 、 
Ss2 表示 全 体 被 试 在 整个 测验 上 的 总 得 分 的 变异 数 。 
(2) 卢 仑 (Rulon) 公式: 
rw=1-S3/S: (4.9) 
式 中 2 表示 同一 组 被 试 在 两 半 测验 上 得 分 之 差 的 变异 数 ， 其 
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他 符号 的 含义 与 《4.8) 中 含义 相同 。 

2. 使 用 的 前 提 条 件 及 范围 

分 半 信 度 通常 是 在 只 能 施 测 一 次 或 没有 复 本 的 情况 下 使 
用 。 而 且 ， 在 使 用 斯 皮尔 曼 一 布朗 公式 时 要 求全 体 被 试 在 两 半 
测验 上 得 分 的 变异 数 要 相等 。 当 一 ee 
时 ,分 半 信 和 度 不 宜 使 用 。 

此 外 ， 由 于 将 一 个 测验 分 成 两 半 的 方法 很 多 (如: 接 题 
的 奇偶 性 分 半 、 或 按 题目 的 难度 分 半 、 或 按 题目 的 内 容 分 半 等 
等 )， 所 以 ,同一 个 测验 通常 会 有 多 个 分 半 信 和 投 值 。 


四 、 同 质 性 信 度 


1. 会 义 

同 质 性 信 度 〈homogeneity reliability) 也 叫 内 部 一致 性 系 
数 ， 它 是 指 测验 内 部 所 有 题目 间 的 一 致 性 程度 。 这 里 ， 题 月 各 
的 一 致 性 含有 两 层 意思 ， 其 一 是 指 所 有 题目 都 测 的 是 同一 种 心 
理 特质 ， 其 二 是 指 所 有 题目 得 分 之 间 都 具有 较 高 的 正 相 关 。 一 
句 话 ， 同 质 性 信和 度 就 是 一 个 测验 所 测 内 容 或 特质 的 相同 程度 。 

当 一 个 测验 具有 较 高 的 同 质 性 信 度 时 ， 说 明 测验 主要 测 的 
是 某 一 单个 心理 特质 ， 实 测 结果 就 是 该 特质 水 平 的 反映 。 如 果 
-个 测验 同 质 性 信和 度 不 高 ， 则 说 明 测 验 结果 可 能 是 几 种 心理 特 
质 的 综合 反映 .这 时 ,测验 结果 不 好 解释 。 一 种 好 的 办 法 是 把 
一 个 异 质 的 测验 分 解 成 多 个 具有 同 质 性 的 分 测验 ， 再 根据 被 试 
在 分 测验 上 的 得 分 分 别 作出 解释 。 

值得 注意 的 是 ， 一 些 表面 上 看 起 来 是 测量 同一 种 心理 特质 
的 人 题目， 如 果 其 题目 间 不 具有 较 高 的 正 相关 ， 则 不 能 认为 它们 
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具有 同 质 性 。 这 即 是 说 ,测量 单一 特性 是 癌 质 性 高 的 必要 条 
件 、 耐 菲 充 分 条 件 。 反 过 来 ， 同 质 性 高 才 是 测验 测 得 单一 特质 
的 充分 条 件 。 我 们 讨论 间 质 性 信和 度 的 目的 就 在 于 判断 一 个 测验 
是 否 测 到 单一 特质 ， 以 及 估计 所 测 到 特质 的 一 致 性 程度 。 

2. 计算 及 和 运用 范围 

内 部 一 致 性 系数 的 -种 粗略 千 计 方法 是 求 测验 的 分 半 信 
度 。 但 因 分 半 方 法 多 种 多 样 ， 所 得 结果 不 太 稳 定 ， 因 此 有 人 建 
议 : 计算 出 所 有 可 能 的 分 半 信 度 ， 并 用 其 平均 值 来 数 为 内 部 一 
致 性 的 估计 值 。 然 而 ， 这 种 办 法 太 麻烦 了 ， 因 为 所 有 可 能 的 分 
半 信 和 度 的 个 数 简直 是 个 天 文 数字 ， 计 算 机 都 拿 它 头痛 。 于 是 ， 
大 们 又 提出 了 如 下 公式 : 

t= Kis/ [1l+ (K-1) a] (4.10) 
其 中 ，K 为 一 个 测验 的 题目 个 数 ， i 为 所 有 题目 间 相 关系 数 的 
平均 值 。 : 

这 一 公式 实际 也 是 不 方便 的 ， 因 为 所 有 题目 间 都 求 相关 会 
比较 麻烦 。 不 过 ， 由 此 却 导 出 了 十 分 方便 的 库 一 理 信 和 度 系数 和 
克 龙 巴赫 a 系数 ， 现 列 于 如 下 ，; 

(1) KR 公式 : 

r= [K/ (K-1)] [1- (Dpqg) /5:] (4.11) 
其 中 ，K 是 题目 数 ，p 为 答对 第 i 题 的 人 数 的 比例 ，q 为 答 错 
第 i 题 的 人 数 的 比例 ，S? 为 测验 总 分 的 变异 。 此 公式 是 由 库 德 
(CG.F.Kuder) 和 和 理 查 德 逊 (M.W.Richardson) 于 1937 年 提 
出 的 ， 仅 适用 于 (0、1) 记分 的 测验 。 

(2) KR21 公 式 ; 

ra= [K/ (K-1)] [1- (Kpa) /S:] (4.12) 
其 中 ,各 指标 含义 与 KR 相同 ， 只 是 5 与 9 分 别 表示 题目 的 
平均 通过 率 和 失败 率 。 此 公式 只 有 当 所 有 题目 的 难度 接近 时 才 
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适用 。 

(3) 克 龙 巴赫 a 系 数 ; 1 

a= [K/ (Kk-1)] [1- (>S) /s2] (4.13) 

其 中 ，S; 表 示 所 有 被 试 在 第 [1 题 上 的 分 数 变异 ， 其 余 指 标的 含 
义 与 KRzo 相 同 。 此 公式 是 由 克 龙 巴赫 (Cronbach) 提出 的 ， 
它 不 要 求 测验 题目 仅 是 《0、1) 记分 ， 可 以 处 理 任何 测验 的 内 
部 一 致 性 系数 的 计算 问题 。 实 际 上 ，KR2o 和 KR 只 是 a 的 特 
例 ， 因 为 在 (0、1) 记分 时 有 $= piqi。 此 外 ，a 值 还 是 
所 有 可 能 的 分 半 信 度 的 平均 值 ， 它 只 是 测量 信 度 的 下 界 的 一 个 
估计 年 。 即 ，a 值 大 ， 必 有 测量 信 度 高 ; 但 a 值 小 时 ， 却 不 能 
断定 测量 信和 度 不 高 。 

a 值 的 计算 一 般 按 下 述 步骤 进行 : @ 按 一 定 要 求 抽 取 n 个 
被 试 的 试卷 ， 首 先 计 算出 这 几 个 人 测验 总 分 的 方差 S,。 人 句 这 
几 个 人 在 每 一 题 上 都 会 有 一 个 得 分 分别 求 出 这 几 个 人 在 每 道 


题 上 得 分 的 方差 2; (i=1, 2,…,K)， 并 求 之 守 的 值 。 @ 按 


公式 {4.13) 求 出 a 值 。 

例如 ， 某 态度 量 表 共 7 题 ，100 个 被 试 在 各 题 上 得 分 的 方 
差分 别 是 0.81，0.82，0.79，0.83，0.85，0.76，0.77， 测 
验 总 分 的 方差 为 14.00， 则 此 测量 的 a 信和 度 为 : 





K 2 S’; 7 
a = 二 《1 -~ 一 ) = 了 了 一 
K-l S2x 7 了 -1 
(1- O31+0.82+0.79+0.83+0.85+0.76+0.77) 
14.00 
=0.70 


(4) 荷 伊 特 信和 度 : 

1941 年 荷 仇 特 〈C' Hoyt) 提出 用 方差 分 量 比 描写 测验 内 
部 一 致 性 的 方法 : 

设 有 mn- 名 被 试 参加 一 有 X 个 项 目的 测试 ， 测 验 分 数 的 总 
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变异 可 分 解 为 被 试 间 变异 SS 人 ， 项 目 间 变 异 SSw 各 人 与 试题 
交互 作用 SS 人. 三 部 分 。 荷 仇 特 认为 可 用 MSAX 作为 被 试 方差 
估计 和 值 ， 用 MS www 作为 误差 方差 估计 值 ， 并 可 用 下 式 作为 测 
验 信和 度 的 估计 值 : 


(4.14) 


五 、 评 分 者 信和 度 


1. 会 义 及 计算 

评分 者 信和 度 《seorer reliability) 指 的 是 多 个 评分 者 给 同一 
批 人 的 答卷 进行 评分 的 一 致 性 程度 。 在 心理 与 教育 测量 工作 
中 ， 客 观 题 的 评分 很 少 出 现 误差 (如 机 器 阅卷 );, 但 主观 题 的 
评分 常常 会 造成 误差 。 因 此 ， 提 高 评分 者 信和 度 也 是 心理 与 教育 
测量 的 重要 任务 之 一 。 

当 评分 者 人 数 为 2 时 ， 评 分 者 信和 度 等 于 两 个 评分 者 给 则 一 
批 被 试 的 答卷 所 给 分 数 的 相关 系数 〔( 积 差 相关 或 等 级 相关 )。 

当 评 分 者 人 数 多 于 两 个 时 ,评分 者 信 度 可 用 肯 德 尔 和 谐 系 
数 进行 估计 。 其 公式 为 : 

W=12 [>YR2;- (>ZRi)2/N] 7 [K? (NI-N)](4.15) 

其 中 ，K 是 评分 者 人 数 ，N 是 被 评 的 对 象 数 〈 通 常 是 考生 数 ， 
每 个 考生 一 份 试卷 )，R; 是 第 i 个 被 评 对 象 (考卷 ) 被 评 的 水 
平等 级 之 和 。 

当 评 分 者 〈K) 为 3~ 20 人 ,被 评 对 象 ( 考 着 N) 为 3~7 
个 时 ， 信 和 度 是 否 合 要 求 可 直接 查 多 表 检 验 。 当 实际 计算 的 入 
值 大 于 表 中 的 相应 值 时 ,说 明 评分 所 得 入 度 较 高 。 
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若 被 评 对 象 多 于 7 个 ， 则 可 计算 X? 值 ， 作 X? 检验 
(X2=K (N-1) W, df=N-1)。 

车 评分 中 有 相间 等 级 出 现 ， 则 要 使 用 以 下 公式 求 W 值 ; 

W=12 [SR’;- (ZR)/NI/ 


[RK? (N2-N) -K>> (mn -n) /12)} (4.16) 
其 中 ，n 为 相同 等 级 的 个 数 ， 其 他 指标 与 (4.15) 含义 相 何 。 
2. 举例 


设 有 A、B、C 三 位 教师 给 6 篇 作文 评分 ， 结 果 如 下 ， 试 
求 评分 者 入 度 。 

















1 2 3 4 5 6 
25 30 27 20 28 32 
22 26 21 20 25 30 
C 15 20 18 14 21 22 


解 : (1) 将 每 一 评分 者 给 6 篇 文章 所 评分 数 转化 成 得 分 等 级 
(最 高 分 为 1、 次 为 2，……)， 并 求 出 每 一 篇 文章 所 得 等 级 之 
和 Ri 




















1 2 3 4 5 6 

A 5 2 4 6 3 1 

B 4 2 5 6 3 1 

C 5 3 | 4 6 2 1 

R 14 7 13 18 3 3 
(2) 由 上 可 得 : 


>Ri=14+7+13+18+8+3=63 

了 R2;,= 142+72+132+182+82+32=811 
又 由 题 意 知 K=3, N=6 
(3) 将 K、N、R ;DR* 代 人 公式 (4.15) 有 ; 
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2 
-12 (811-632/6) 095 


人 (@ -6) 


第 三 节 ”提高 测量 信和 度 的 方法 
一 、 影 响 测量 信和 度 的 主要 因素 


测量 信和 度 是 测量 过 程 中 随机 误差 大 小 的 反映。 随机 误差 
大 ， 信 度 就 低 ， 随 机 误差 小 ， 信 上 度 就 高 。 因 此 ， 在 测量 过 程 中 
凡是 能 引起 测量 的 随机 误差 的 因素 一 一 被 坛 、 主 试 、 测 试 内 
容 、 施 测 情 境 等 都 会 影响 测量 信 度 ， 现 具体 讨论 如 下 ， 


(一 ) 被 试 方面 

就 单个 被 试 而 言 ， 被 试 的 身心 健康 状况 、 应 试 动机 、 注 意 
力 、 耐 心 、 求 胜 心 、 作 答 态 度 等 会 影响 测量 误差 ， 因 为 这 些 因 
素 往往 会 影响 被 试 心理 特质 水 平 的 稳定 性 。 

就 被 试 团体 而 言 ， 整 个 团体 内 部 水 平 的 离散 程度 以 及 团体 
的 平均 水 平 都 会 影响 测量 信和 度 。 这 是 因为 ， 我 们 所 计算 的 信息 
估计 值 大 都 是 以 相关 为 基础 的 ， 而 相关 系数 的 大 小 往往 取决 于 
全 体 被 试 得 分 的 分 布 情况 。 当 被 试 团 体 异 质 〈 即 团体 内 水 平 彼 
此 差异 大 ) 时 ， 全 体 被 试 的 总 分 分 布 必 然 较 广 ， 以 相关 为 基础 
计算 出 来 的 信 度 值 必然 会 大 。 这 就 很 有 可 能 高 估 实 际 的 信 度 
值 。 当 团体 内 部 水 平 相差 不 大 ( 同 质 ) 时 ， 其 得 分 分 布 必定 会 
较 罕 ， 以 相关 为 基础 计算 出 来 的 信 度 值 必然 会 小 。 这 时 又 有 可 
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能 低估 真正 的 信 度 值 。 此 外 ， 若 团体 的 平均 水 平 太 高 (大 家 都 
得 高 分 ) 或 太 低 (大 家 都 得 低 分 )}， 同 样 会 使 测验 总 分 的 分 布 
变 窗 ， 低 估 测 量 的 真正 信 度 。 


《二 )》 主 试 者 方面 

就 施 测 者 而 言 ， 若 他 不 按 指导 手册 中 的 规定 施 测 ， 或 故意 
制造 紧张 气氛 ， 或 给 考生 一 定 的 樟 示 、 协 助 等 ， 则 测量 信 度 会 
大 大 降低 。 

就 阅卷 评分 者 而 言 ， 若 评分 标准 掌握 不 一 ， 或 前 紧 后 松 ， 
其 至 是 随心 所 欲 ， 则 也 会 降低 测量 信和 度 。 


(三 ) 施 浏 情境 方面 

在 实施 测验 时 ， 考 场 是 否 安静 ， 光 线 和 通风 情况 是 否 良 
好 ， 所 需 设 备 是 否 齐 备 ， 桌 面 是否 合 乎 变 求 ， 空 间 甩 窗 是 否 恰 
当 等 等 都 可 能 影响 到 测量 的 信和 度 。 


(四 ) 测量 工具 方面 

以 测验 为 代表 的 心理 与 教育 测量 工具 是 否 性 能 稳定 是 测量 
工作 成 败 的 关键 。 因 此 ， 午 清楚 影响 测量 工具 稳定 性 的 因素 是 
十 分 重要 的 。 一 般 地 ， 试 题 的 取样 、 试 题 之 间 的 同 质 性 程度 、 
试题 的 难度 等 是 影响 测验 稳定 性 的 主要 因素 。 

如 果 一 个 测验 的 试题 取样 不 当 (或 题目 数 太 少 、 或 考察 的 
方面 不 全 面 ) ， 则 难以 测 查 到 被 试 心理 特质 的 全 面 情 况 。 若 是 
被 试 采取 抑 题 方式 应 考 ， 则 所 得 结果 的 随机 性 更 大 。 了 既然 心理 
特质 被 考察 的 方面 是 随机 的 、 测 查 的 结果 也 是 随机 的 ， 那么 ， 
这 种 测量 的 信 度 就 必然 不 会 高 。 相 反 ， 当 一 份 测验 中 的 同 质 性 
的 题目 数量 增多 之 后 ， 同 一 心理 特质 被 考察 到 的 次 数 就 会 增 
多 ， 被 试 的 成 绩 也 就 越 能 被 有 效 地 拉 开 ， 整 个 团体 的 测验 分 数 
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分 布 就 会 更 广 ， 从 而 提高 测量 的 信和 度 。 这 种 效果 可 用 斯 皮尔 吕 
一 布朗 公式 计算 : 
rux=Kr [l+ (K-1) 1r,] (4.17) 

其 中 ，K 为 改变 后 的 测验 长 度 与 原来 长 度 之 比 ，r,, 为 原 测 验 
的 信和 度 ，r,, 为 测验 长 度 增 加 为 K 售后 的 测验 的 信和 上 度 。 

如 果 一 个 测验 内 部 的 试题 之 间 彼 此 异 质 ( 即 测 查 的 是 不 同 
的 心理 特质 )， 则 无 法 使 测量 的 内 部 一 致 性 系数 据 高 。 

如 果 测 验 的 题 生 太 难 ， 则 会 引起 被 试 的 随机 猜 答 ， 并 使 得 
大 部 分 人 的 得 分 偏 低 ， 整 个 分 数 的 分 布 变 窗 ， 从 而 影响 测量 的 
信和 度 。 如 果 题 目 太 容易 ， 则 大 部 分 被 试 都 将 获得 高 分 ， 同 样 会 
使 测验 分 数 的 分 布 变 罕 ， 影 响 测量 的 信 度 。 


(五 ) 两 次 施 测 的 间 呈 时间 

在 计算 重 测 信 和 度 和 稳定 性 与 等 值 性 系数 ( 复 本 信和 度 之 一 ) 
时 ， 两 次 测验 相隔 时 间 越 短 ， 其 信和 度 值 越 大 ; 间 耻 时 间 越 长 ， 
其 他 因素 带 来 影响 的 机 会 就 多 ， 因 而 其 信和 度 伪 就 可 能 越 小 。 


二 、 提 高 测量 信 度 的 常用 方法 


(一 ) 适当 增加 测验 的 长 度 

由 于 项 目 效 量 太 少 会 降低 测 重 的 信和 度 ， 所 以 ， 提 高 测量 信 
度 的 一 个 常用 方法 是 增加 一 些 与 原 测 验 中 项 目 具有 较 好 的 同 质 
性 的 项 目 ， 增 大 测验 长 度 。 

这 里 有 两 点 必须 注意 : 全 新 增 项 目 必须 与 试卷 中 原 有 项 目 
同 质 。 色 新 增 项 目的 数 景 必须 适度 。 事 实 上 ,增加 测验 长 度 的 
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效果 苯 循 报酬 递减 规律 。 即 : 测验 过 长 有 可 能 引起 被 试 的 疲劳 
和 反感 ， 降 低 测 量 信和 度 。 若 已 知 测验 的 更 有 信和 度 ， 而 且 知 道 所 
要 求 的 信 度 标准 ， 则 可 以 代入 公式 《4.17) 之 中 求 出 & 值 ， 
得 到 一 个 恰当 的 增加 数目 。 


(二 》 使 测验 中 所 有 试题 的 难度 接近 正 态 分 布 ， 并 控制 在 
中 等 水 平 。 

当 测 验 中 所 有 试题 的 难产 接近 正 态 分 布 并 控制 在 中 等 水 平 
时 ， 被 试 团体 的 得 分 分 布 也 会 接近 正 态 分 布 ， 且 标准 差 会 较 
大 ， 以 相关 为 基础 的 信 度 值 必 然 也 会 增 大 。 


三》 努力 提高 测验 试题 的 区 分 度 

区 分 度 是 测验 题目 的 质量 指标 ， 本 书 稍 后 将 有 专 论 。 一 份 
测验 所 有 试题 区 分 度 高 低 直接 影响 测验 的 信 度 。 努 力 提高 测验 
中 所 有 试题 的 区 分 度 ， 可 望 获 取 较 高 的 测验 信 度 。 


(四 ) 选取 怡 当 的 被 试 团体 ， 提 高 测验 在 各 同 质 性 较 强 的 
亚 团体 上 的 信和 度 。 

由 于 被 试 团体 的 平均 水 平和 内 部 差异 情况 均 会 影响 测量 信 
度 ， 所 以 在 检验 测量 的 信和 度 时 ， 一 定 要 根据 测验 的 使 用 目的 来 
选择 被 坛 。 即 ;在 编制 和 使 用 测验 时 ， 一 定 要 弄 清楚 常 模 团 体 
的 年 抢 、 性 别 、 文 化 程度 、 职 业 、 爱 好 等 等 因素 。 一 个 特别 异 
质 的 团体 上 获得 的 信 度 值 并 不 等 于 其 中 某 些 较 同 质 的 亚 团体 的 
信和 度 值 。 只 有 各 亚 团 体 上 信和 度 值 都 合乎 要 求 的 测验 才 具 有 三 泛 
的 应 用 。 
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(五 ) 主 试 者 严格 执行 实测 规程 ， 评 分 者 严格 按 标准 给 
分 ， 实 测 场 地 按 测验 手册 的 要 求 进行 布置 ， 减 少 无 关 因素 的 干扰 。 


(1) 提高 测量 信和 度 的 方法 还 有 很 多 ， 以 上 只 是 其 中 的 几 种 
常用 方法 。 

《2) 本 章 所 讨论 的 各 种 信和 度 计 算 方 法 仅 适用 于 常 模 参 照 性 
测验 。 

(3) 目标 参照 性 测验 的 信和 度 问 题 必须 以 测量 的 概 化 理论 
《Generalizability Theory 简称 GT) 为 基础 才能 进行 较 好 的 处 
理 ， 所 以 本 章 未 对 此 进行 讨论 。 此 外 ， 速 度 测 验 的 信 度 问题 也 
未 作 讨论 ， 但 这 并 不 意味 着 这 些 内 容 不 重要 。 

(4) 关于 测量 的 信和 度 要 达到 多 高 才 被 认为 可 靠 ? 这 是 一 个 
比较 复杂 的 问题 ， 我 们 在 此 给 出 风 个 一 般 性 标准 供 读者 参考 ， 
标准 化 能 力 或 学 绩 测 验 信和 度 应 在 0.90 以 上 ， 人 格 测验 的 信 度 
应 在 0.80 以 上 ， 教 师 自 编 学 续 测 验 的 信 度 能 达到 0.60 以 上 ， 
就 应 认为 是 较 高 信和 度 的 测验 了 。 


练习 与 思考 
1. 指出 各 种 信和 度 系数 所 对 应 的 误差 来 源 。 


2. 已 知 16 人 参加 一 次 测验 后 在 奇数 题 和 侦 数 三 上 的 得 分 
情况 ， 试 用 两 种 以 上 方法 估计 测量 信 度 。 
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被 试 |1 2 3 4567 8 9 4140111213 1415 16 


青 数 题 32 40 42 28 35 30 41 28 32 34 26 34 36 25 40 41 








偶数 题 31 39 45 30 40 29 39 30 32 30 30 40 36 26 40 42 


3. 已 知 菜 态 度量 表 有 6 道 题 ， 被 试 在 各 题 上 得 分 的 方差 
分 别 是 0.80，0.81，0.79，0.78，0.80，0.82， 测 验 总 分 的 
方差 为 16.00, 求 a 值 。 

4. 怎样 提高 测量 信 度 ? 

5”. 试 证 信 度 三 个 定义 的 等 价 性 。 

6*. 不 同 能 力 水 平 的 大 在 接受 同一 测验 时 ， 为 什么 会 有 不 
同 的 测量 误差 ? 





本 章 提要 : 
物 效 度 的 概念 及 其 写 信和 度 的 关系 


例 效 度 的 种 类 及 效 度 获取 的 方法 
例 提 高 测量 效 度 的 方法 
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在 测量 活动 中 ， 测 量 者 对 所 使 用 的 测量 工具 非常 信任 ， 他 
会 采取 复 测 行为 以 判断 测量 有 无 误差 ; 如 果 测 量 者 对 所 使 用 的 
测量 工具 发 生 人 怀疑， 那 他 往往 会 去 找 一 公认 非常 准确 的 测量 工 
具 对 先前 的 测 值 进行 检验 。 这 种 在 原 测 量 工具 之 外 寻求 新 的 证 
据 来 肯定 或 否定 某 -- 测 量 工 具 准 确 性 的 做 法 就 是 在 研究 测量 的 
效 度 问题 。 心 理 测量 是 一 种 间接 测量 ， 心 理 测量 更 重视 测量 的 
效 度 研 究 。 


第 一 节 ” 效 度 概述 
一 、 什 么 是 效 度 


效 度 《Validity) 是 指 一 个 测验 或 量 表 实 际 能 测 出 其 所 要 
测 的 心理 特质 的 程度 。 例 如 ， 一 个 小 学 生 数 学 测验 的 成 绩 若 同 
时 受到 其 数学 和 语文 能 力 的 影响 〈《 恕 ， 有 的 人 看 不 懂 题 意 等 )， 
则 认为 实际 测 到 其 所 要 测 的 特质 〈 数 学 能 力 ) 的 程度 不 高 ， 因 
而 它 是 个 效 度 不 高 的 数学 测验 。 

关于 效 度 的 概念 ， 我 们 要 特别 注意 以 下 几 点 : 

(1) 效 度 是 一 个 相对 的 概念 。 这 种 相对 性 表现 在 两 个 
方面 : 

Q 效 度 是 相对 于 一 定 的 测量 自 的 而 言 的 。 因 为 效 度 是 指 实 
测 结 果 与 所 要 测 查 的 特质 之 间 的 吻合 一 致 性 程度 ， 因 此 ， 一 个 
测验 或 量 表 是 否 有 效 主要 是 看 它 是 否 达 到 了 测量 目的 。 测 量 某 
一 特质 有 效 的 量 表 ， 若 用 它 来 测量 另 一 种 特质 ， 则 必然 会 无 效 
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或 效 度 极 低 。 例 如 ， 测 量 身高 很 有 效 的 钢 尺 若 用 它 来 测量 体重 
则 必定 是 无 效 的 。 又 如 ， 人 的 测量 智力 很 有 效 的 量 表 若是 用 来 
测量 性 格 则 必定 是 效 度 不 高 的 。@ 心 理 特质 是 较 隐 蔽 的 特性 ， 
只 能 和 通过 他 的 行为 表现 来 进行 推测 ， 因 此 ， 心 理 测 量 不 可 能 达 
到 百分之百 的 准确 ， 而 只 能 达到 某 种 程度 上 的 准确 。 不 过 ， 由 
于 任何 一 个 量 表 的 编制 都 有 其 目的 ， 所 以 在 正常 情况 下 ， 一 个 
量 表 的 效 度 也 不 会 为 零 。 例 如 ， 一 个 数学 测验 ， 无 论 其 文字 表 
达 如 何 艰深 ， 它 总 能 测 到 一 定 的 数学 能 力 ， 即 总 会 有 一 定 的 效 
度 ， 而 不 会 效 度 为 零 。 

(2) 效 度 是 测量 的 随机 误差 和 系统 误差 的 综合 反映 。 

当 一 个 测验 随机 误差 较 大 时 ， 实 测 结果 当然 会 偏离 真 值 ， 
造成 结果 的 不 准确 。 如 果 测 量 中 还 存在 系统 误差 ， 则 系统 误差 
也 会 加 大 测量 误差 。 无 论 出 现 哪 种 情况 ， 也 无 论 是 否 两 种 误差 
都 存在 ， 只 要 出 现 测量 误差 ， 测 量 的 效 度 必 受 影响 。 

《3) 判断 一 个 测量 是 否 有 效 要 从 多 方面 收集 证 据 。 

表面 看 来 ， 测 量 的 效 度 就 是 实际 测量 的 结果 与 我 们 所 要 测 
量 的 心理 特性 的 吻合 一 致 性 程度 ， 获 取 效 度 的 办 法 也 就 是 拿 实 
测 结果 与 心理 特性 来 比较 。 然 而 ,心理 特性 是 我 们 要 测 的 东 
西 ， 是 未 知 的 ， 通 常 也 是 比较 抽象 和 隐蔽 的 。 因 此 ， 不 能 把 它 
直接 拿 来 与 结果 比较 ， 而 必须 先 从 多 种 角度 把 这 种 特性 描述 清 
楚 。 由 于 描述 心理 特性 的 角度 可 以 是 理论 上 的 ,也 可 以 是 实践 
上 的 ， 途 径 很 多 ， 因 此 ， 获 到 测量 效 度 的 途径 也 是 多 样 的 。 例 
如 ， 智 力 测验 是 否 测 得 了 人 的 智力 ， 我 们 就 可 以 从 理论 上 做 逻 
辑 分 析 ， 也 可 以 从 他 在 工作 、 学 习 中 的 实际 表现 等 许多 方面 加 
以 证 实 。 

在 前 一 章 曾 讲 到 ， 一 组 测验 分 数 的 总 变异 包括 3 部 分 : 真 
实 的 (稳定 的 )、 与 测量 目的 有 关 的 变异 ; 真实 的 、 但 出 自 无 
关 来 源 的 变异 ; 随机 误差 的 变异 。 
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在 测量 理论 中 ， 效 度 被 定义 为 : 在 一 列 测量 中 ， 与 测量 目 
的 有 关 的 真实 变异 数 〈 由 所 要 测量 的 变 因 引起 的 有 效 变异 ) 与 
总 变异 数 〈 实 得 变异 数 ) 的 比率 ， 即 ， 

效 度 =S%/S% = 己 ， (5.1) 

这 里 mv 代表 测量 的 效 度 系数 ，S34 代表 有 效 变 异 数 ，S3 代 
表 总 变异 数 。 

一 个 测验 的 效 度 表明 ， 在 一 组 测验 分 数 中 ， 有 多 大 比例 的 
变异 是 由 测验 所 要 测量 的 变 因 引起 的 。 和 信 度 一 样 ， 效 度 也 是 
指 的 一 列 测量 的 特性 ， 也 是 一 个 构想 的 概念 。 


二 、 效 度 与 信和 度 的 关系 


根据 公式 S = SY + Sf + SE， 可 以 得 到 信 度 与 效 度 的 关系 
如 下 : 


(一 ) 信 度 高 是 效 度 高 的 必要 而 非 充分 的 条 件 

当 随 机 误差 的 变异 数 (SE) 减 小 时 ， 真 实 分 数 的 变异 数 
(S14) 增加 ,测验 信和 度 (5S4/S%) 随 之 提高 。 信 上 度 的 提高 只 给 
有 效 变 异 数 《S$ 的 增加 提供 了 可 能 ) 至 于 是 否 能 提高 效 度 ， 
还 要 看 系统 误差 变异 数 《St*) 的 大 小 。 可 见 ， 信 和 度 高 不 一 定 
效 度 高 。 但 一 个 测验 要 想 效 度 高 ， 真 分 数 的 变异 数 必须 占 较 大 
的 比重 ， 即 测验 的 信和 度 必须 高 。 

信和 度 和 效 度 的 这 种 关系 ， 从 日 常 经 验 中 也 可 以 看 。 一 个 测 
量 工具 具有 一 定 的 信和 度 ， 但 对 于 某 一 个 目的 并 不 一 定 是 有 效 
的 ;而 一 个 测量 工具 如 果 对 于 某 一 个 目的 是 有 效 的 ， 那 么 它 一 
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定 是 可 信 的 。 辟 如， 用 米 尺 来 量 身 高 是 有 效 的 ， 也 是 可 信 的 ， 
而 用 米 尺 来 量 和 体重， 虽然 多 次 量 得 的 结果 是 一 致 的 ， 即 有 较 高 
的 信 度 ， 但 它 的 效 度 却 很 低 。 


《二 》 测 验 的 效 度 受 它 的 信 度 制约 
根据 效 度 和 信和 度 的 定义 ( 世 , = S$3/ 贪 ，rxx = St/S%) 以 及 
公式 (S$ =S%+S?) 可 得 到 : 
,= (54-5?) /SX = rxx ~ SI/SX 
Si1>0 
SR 
这 就 是 说 ， 一 个 测验 的 效 度 总 是 受 它 的 信和 度 所 制约 。 


第 二 节 ” 效 度 的 估计 


由 于 测量 效 度 是 就 测量 结果 达到 测量 目的 的 程度 而 言 的 ， 
所 以 测量 效 度 的 估计 在 很 大 程度 上 取决 于 人 们 对 测量 目的 的 解 
释 。 目 前 ， 比 较 常 见 的 解释 角度 主要 有 3 种 ， 一 是 用 测量 的 内 
容 来 说 明 目 的 ; 二 是 用 心理 学 上 某 种 理论 结构 来 说 明 上 县 的 ; 三 
是 用 工作 实效 来 说 明 目 的 。 于 是 便 有 了 内 容 效 度 、 结 构 效 度 积 
实证 效 度 之 说 。 当 然 ， 这 种 分 类 是 相对 的 ， 一 个 测验 也 许 需 要 
同时 考察 它 在 这 3 个 方面 的 效 度 。 有 些 专家 甚至 认为 ， 效 度 估 
计 就 是 多 方 寻 找 证 据 来 证 明 一 个 测验 的 有 效 性 程度 的 过 程 。 本 
节 将 着 重 介绍 内 容 效 度 、 结 构 效 度 和 实证 效 度 的 含义 与 估计 方法 。 
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1. 内 容 效 度 的 含义 及 应 用 范围 

内 容 效 度 (Content Validity》 是 指 一 个 测验 实际 测 到 的 内 
容 与 所 要 测量 的 内 容 之 间 的 吻合 程度 。 估 计 一 个 测验 的 内 容 效 
度 就 是 去 确定 该 测验 在 多 大 程度 上 代表 了 所 要 测量 的 行为 领 
域 。 这 里 ， 所 要 测量 的 内 容 或 行为 领域 是 依据 测量 目的 而 定 
的 ， 它 通常 包括 欲 测 的 知识 范围 ， 以 及 该 范围 内 各 知识 点 所 要 
求 掌握 的 程度 两 个 方面 。 首 先 ， 在 判断 一 个 高 中 物理 试 着 是 否 
有 较 高 的 内 容 效 度 时 ， 我 们 必须 首先 分 析 考 题 是 否 有 效 地 镍 盖 
了 中 学 物理 所 包括 的 力学 、 电 学 、 光 学 、 热 学 以 及 原子 物理 5 
个 方面 。 内 容 效 度 高 的 物理 测验 应 当 是 由 这 5 个 方面 最 有 代表 
性 的 试题 样本 组 成 的 。 其 次 ,我 们 还 必须 分 析 题 目的 难度 等 指 
标 是 否 较 好 地 反映 了 考试 大 岗 中 对 这 5 个 方面 能 力 水 平 的 要 
求 ， 等 等 。 

显然 ， 内 容 效 度 主要 应 用 于 成 就 测验 ， 因 为 成 就 测验 主要 
是 测量 被 试 掌握 某 种 技能 或 学 习 某 门 课程 所 达到 的 程度 的 。 在 
这 种 测验 中 ， 题 目 取样 的 代表 性 问题 是 内 容 效 度 的 主要 考察 方 
面 。 内 容 效 度 高 ， 则 可 以 把 被 试 在 该 测验 上 的 分 数 推论 到 他 在 
相应 的 知识 总 体 上 去 ， 说 他 在 某 个 方面 水 平 处 在 一 个 什么 样 的 
位 置 。 反 之 ， 内 容 效 度 低 ， 则 这 种 推论 将 是 无 效 的 。 

内 容 效 度 也 适合 于 某 些 用 于 选拔 和 分 类 的 职业 测验 。 这 种 


， 测验 所 要 测 的 内 容 就 是 实际 工作 所 需 的 知识 和 技能 ， 编 制 这 种 


测验 应 首先 对 实际 工作 化 较 细 的 分 析 ， 否 则 ,题目 取样 的 代表 
性 就 难以 令 人 满意 。 
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应 该 指出 的 是 ， 内 容 效 度 不 适合 用 于 能 力 倾向 测验 和 人 格 
测验 。 

此 外 ， 在 使 用 内 容 效 度 时 ， 要 避免 与 表面 效 度 (surface 
validity) 相 混 淆 。 其 实 ， 表 面 效 度 不 能 算是 一 种 效 度 ， 它 不 反 
映 测验 实际 测量 的 东西 。 它 是 外 行人 对 某 个 测验 从 表面 上 看 好 
像 是 测 某 种 心理 特质 的 一 种 现象 。 当 外 行人 认为 某 个 测验 能 有 
效 地 测 得 某 种 心理 特质 时 ， 该 测验 就 被 认为 有 较 高 的 表面 效 
度 。 一 般 来 说 ， 最 佳 行为 测验 往往 表面 效 度 高 ， 其 他 测验 则 希 
望 表面 效 度 低 。 

2. 内 容 效 度 的 确定 方法 

内 容 效 度 的 确定 方法 主要 是 逻辑 分 析 法 ， 其 工作 思路 是 请 
有 关 专 家 对 测验 题目 与 原 定 内 容 范 围 的 吻合 程度 作出 判断 。 其 
具体 步 又 是 ; 

(1) 明确 欲 测 内 容 的 范围 ， 包 括 知识 范围 和 能 力 要 求 两 个 
方面 。 这 种 范围 的 确定 必须 具体 、 详 细 ， 并 要 根据 一 定 目的 规 
定好 各 纲目 的 比例 。 

(2) 确定 每 个 题目 所 测 的 内 容 ， 并 与 测验 编制 者 所 列 的 双 
向 细 目 表 (考试 蓝图 ) 对 照 ， 逐 题 比 较 自己 的 分 类 与 制 卷 者 的 
分 类 ， 并 散记 录 。 

(3) 制定 评定 量 表 ， 考 察 题目 对 所 定义 的 内 容 范 围 的 覆盖 
率 、 判 断 题 目 难 度 与 能 力 要 求 之 间 的 差异 ， 还 要 考察 各 种 题目 
数量 和 分 数 的 比例 以 及 题目 形式 对 内 容 的 适当 性 等 等 ， 对 整个 
测验 的 有 效 性 作出 总 的 评价 。 

此 外 ， 克 龙 巴 赫 (Cronbach) 还 提出 过 内 容 效 度 的 统计 分 
析 方 法 。 其 具体 方法 是 : 从 同一 个 教学 内 容 总 体 中 抽取 两 套 独 
立 的 平行 测验 ， 用 这 两 个 测验 来 测 同 一 批 被 试 ， 求 其 相关 。 若 
相关 低 ， 则 两 个 测验 中 至 少 有 一 个 缺乏 内 容 效 度 ; 若 相 关 高 ， 
则 测验 可 能 有 较 高 的 内 容 效 度 (除非 两 个 测验 取样 偏向 同一 个 
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方面 )。 

还 有 一 种 判断 内 容 效 度 的 方法 是 再 测 法 。 这 种 方法 的 操作 
过 程 是 ; 在 被 试 学 习 某 种 知识 之 前 作 一 次 测验 (如 学 习 电 学 之 
前 考 电学 知识 )， 在 学 过 该 知识 后 再 作 同 样 的 测验 。 这 时 ， 若 
后 测 成 绩 显 著 地 优 于 前 测 成 绩 ， 则 说 明 所 测 内 容 正 是 被 试 新 近 
所 学 内 容 ， 进 而 证 明 该 测验 对 这 部 分 内 容 而 言 具 有 较 高 的 内 容 
效 度 。 


二 、 结 构 效 度 . 


1. 结构 效 度 的 含义 、 特 点 写 应 用 范围 

结构 效 度 (Construct Validity) 是 指 一 个 测验 实际 测 到 所 
要 测量 的 理论 结构 和 特质 的 程度 ,或 者 说 它 是 指 测验 分 数 能 够 
说 明 心 理学 理论 的 某 种 结构 或 特质 的 和 程度。 这里， 构想 或 结构 
是 指 心理 学 理论 所 涉及 到 的 抽象 而 属 假设 性 的 概念 或 特质 ， 如 
智力 、 焦 虚 、 外 向 、 动 机 等 等 ， 它 们 通常 用 某 种 操作 来 定义 ， 
并 用 测验 来 测量 。 例 如 ， 吉 尔 福特 (J. P，Guilford) 认为 创 
造 力 是 发 茹 性 思维 的 外 部 表现 ， 是 人 对 一 定 刺 激 产生 大 量 的 、 
变化 的 、 独 创 性 的 反应 能 力 。 根 据 这 一 理论 ， 他 认为 创造 力 测 
验 应 重点 测量 人 的 思维 的 流畅 性 、 灵 活性 和 创造 人性。 测验 编 好 
后 ， 若 有 足够 的 证 据 来 证 明 它 确实 可 以 测 到 这 些 特 性 ， 则 认为 
它 是 个 结构 效 度 较 高 的 创造 力 测 验 。 

根据 定义 ,我 们 可 知 结构 效 度 的 研究 具有 如 下 一 些 特点 : 

(1) 结构 效 度 的 大 小 首先 取决 于 事先 很 定 的 心理 特质 理 
论 。 一 旦 人 们 对 同一 种 心理 特质 有 着 不 同 的 定义 或 假设 ， 则 会 . 
使 得 关于 该 特质 测验 的 结构 效 度 的 研究 结果 无 法 比较 。 例 如 ， 
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同样 是 智力 测验 ， 由 于 当今 理论 界 对 智力 持 有 不 同 的 定义 ， 所 
以 ， 有 些 智 力 测验 的 结构 效 度 的 研究 结果 是 不 宜 进 行 比较 的 。 

(2) 当 实 际 测量 的 资料 无 法 证 实 我 们 的 理论 假设 时 ， 并 不 
一 定 就 表 骨 该 测验 结构 效 度 不 高 ， 因 为 还 有 可 能 出 现 理论 假设 
不 成 立 , 或 者 该 实验 设计 不 能 对 该 假设 作 适 当 的 检验 等 情况 。 
这 就 使 得 结构 效 度 的 获取 更 为 困难 。 

(3) 结构 效 度 是 通过 测量 什么 、 不 测量 什么 的 证 据 累 积 起 
来 给 以 确定 的 ， 因 而 不 可 能 有 单一 的 数量 指标 来 描述 结构 
效 度 。 

与 内 容 效 度 不 同 ， 结 构 效 度 主要 用 于 吞 力 测验 、 人 格 测验 
等 一 些 心理 测验 方面 。 

2. 结构 效 度 的 确定 方法 | 

总 的 来 说 ， 结 构 效 谋 的 确立 一 般 包 括 3 步 ; @ 提 出 理论 假 
设 ， 并 把 这 一 假设 分 解 成 一 些 细小 的 纲目， 以 解释 被 试 在 测验 
上 的 表现 。 四 依据 理论 框架 ， 推 演出 有 关 测 验 成 绩 的 假设 。 团 
用 逻辑 的 和 实证 揭 方 法 来 验证 假设 。 例 如 ， 韦 氏 智 力 测验 就 是 
根据 这 3 步 来 确立 结构 效 度 的 。 韦 克 斯 寺 (Wechsler) 首先 假 
定 “ 智 力 是 一 个 人 去 理解 和 应 付 他 的 周围 世界 的 总 的 才能 ”， 
而 不 仅仅 是 推理 能 力 或 其 他 一 些 具体 的 技能 。 然 后 ， 他 依据 这 
一 定义 ,编制 了 11 个 分 测验 《WAIS - R) 或 12 个 分 测验 
(WISC - R)， 从 十 几 个 方面 来 说 明智 力 ， 并 声明 这 些 个 分 测 
验 并 非 是 测量 不 同类 型 的 智力 ， 而 是 总 的 智力 的 各 个 方面 。 测 
验 编 好 以 后 ， 许 多 研究 者 便 从 众多 角度 研究 了 它 的 效 度 。 其 
中 ， 用 因素 分 析 方 法 得 出 的 结论 是 ,该 测验 实质 上 测量 了 三 类 
共同 因素 ， 即 A 因素 (言语 理解 因素 )、B 因素 (知觉 组 织 因 
素 ) 和 C 因素 (记忆 和 注意 集中 因素 )。 

具体 地 说 ， 结 构 效 度 的 估计 可 以 有 以 下 一 些 方 法 : 

(1) 测验 内 部 寻找 证 据 法 。 首 先 ， 我 们 可 以 考察 该 测验 的 
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内 容 效 度 ， 因 为 有 些 测验 对 所 测 内 容 或 行为 范围 的 定义 或 解释 
类 似 于 理论 构想 的 解释 ， 所 以 ， 内 容 效 度 高 实质 上 也 说 明 结构 
效 度 高 。 例 如 ， 在 编制 语文 能 力 测验 时 ， 许 多 编制 者 给 内 容 的 
定义 等 同 于 “语文 能 力 ” 的 解释 。 其 次 ,我 们 可 以 分 析 被 试 的 
答题 过 程 。 若 有 证 据 表 明 某 一 题目 的 作答 除了 反映 着 所 要 测 的 
特质 以 外 ， 还 反映 着 其 他 因素 的 影响 ， 则 说 明 该 题 没 有 较 好 地 
体现 理论 构想 ， 该 题 的 存在 会 降低 结构 效 度 。 例 如 ， 有 些 表面 
上 是 测 人 的 性 格 的 题目 ， 实 质 上 还 涉及 到 了 较 多 的 道德 观念 ， 
则 认为 该 题 会 降低 性 格 测验 的 结构 效 度 。 再 次 ,我 们 足 可 以 通 
过 计算 测验 的 同 质 性 信 度 的 方法 来 检测 结构 效 度 。 若 有 证 据 表 
明 该 测验 不 同 质 ， 则 可 以 断定 该 测验 结构 效 度 不 高 。 当 然 ， 测 
验 同 质 只 是 结构 效 度 高 的 必要 条 件 。 

(2) 测验 之 间 寻 找 证 据 法 。 首 先 ， 我 们 可 以 去 考察 新 编 测 
验 与 某 个 已 知 的 能 有 效 测 量 相同 特质 的 担 测验 之 间 的 相关 。 若 
二 者 相关 较 高 ， 则 说 明 新 测验 有 较 高 的 效 度 。 这 种 方法 叫 相 容 
效 度 法 。 其 次 ， 我 们 也 可 以 去 考察 新 编 测验 与 某 个 已 知 的 能 有 
效 测量 不 同 特质 的 旧 测 验 间 的 相关 。 车 二 者 相关 较 高 ， 则 说 明 
新 测验 效 度 不 高 ， 因 为 它 也 测 到 了 其 他 心理 特质 。 值 得 说 明 的 
是 ， 二 测验 间 相 关 不 高 只 是 新 测验 效 度 较 高 的 必要 条 件 ， 并 不 
是 充分 条 件 。 这 种 方法 也 叫 区 分 效 度 法 。 再 次 ， 我 们 还 可 以 通 
过 因素 分 析 的 方法 来 了 解 测验 的 结构 效 度 。 其 原理 是 ， 通过 对 
一 组 测验 进行 因素 分 析 ， 找 出 影响 测验 的 共同 因素 。 每 个 测验 
在 共同 因素 上 的 负荷 量 《 即 测验 与 各 因素 的 相关 ) 就 是 测验 的 
因素 效 度 ， 测 验 分 数 总 变异 中 来 自 有 关 因 素 的 比例 即 是 该 测验 
结构 效 度 的 指标 。 例 如 ， 一 些 研 究 者 对 WISC - R 和 WISC - 
CR 作 因 素 分 析 后 ， 发 现 公 共 因 子 有 三 个 。 并 且 其 中 的 A 因子 
的 主要 负荷 测验 为 词汇 、 分 类 、 知 识 和 领悟 ，B 因子 的 主要 负 
荷 测验 为 图 片 排 列 、 木 块 图 、 填 图 和 图 形 拼 竣 ，C 因子 的 主要 
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负荷 测验 为 算术 、 数 字 广 度 和 编码 。 

(3) 考察 测验 的 实证 效 度 法 。 如 果 一 个 测验 有 实证 效 度 ， 
则 可 以 拿 该 测验 所 预测 的 效 标的 性 质 与 种 类 作为 该 测验 的 结构 
效 度 指 标 ， 至 少 可 以 从 效 标 的 性 质 与 种 类 来 推论 测量 的 结构 效 
度 。 这 里 有 两 种 向 法 : 其 一 是 根据 效 标 把 人 分 成 两 类 ， 考 察 其 
得 分 的 差异 。 例 如 ， 一 组 被 公认 为 是 性 格外 向 的 人 在 测验 中 得 
分 较 商 ， 另 一 组 被 公认 为 是 性 格 内 向 的 人 在 测验 中 得 分 较 低 ， 
则 说 明 该 测验 能 区 分 人 的 内 向 与 外 向 特征 ， 进 而 说 明 该 测验 在 
测量 人 的 性 格 内 外 向 方面 有 较 高 的 结构 效 度 。 其 二 是 根据 测验 
得 分 把 人 分 成 高 分 组 和 低 分 组 ， 考 察 这 两 组 人 在 所 测 特质 方面 
是 否 确 有 差异 。 若 两 组 人 在 所 测 特 质 方面 差异 显著 ， 则 说 明 该 
测验 有 效 ， 具 有 较 高 的 结构 效 度 。 此 外 ， 对 于 一 些 被 认为 是 较 
稳定 的 特质 ， 若 在 短期 内 两 次 施 测 的 结果 差异 不 太 大 ， 则 说 明 
该 测验 符合 理论 构想 。 

(4) 多 种 特质 一 一 多 种 方法 抵 阵 法 。 该 方法 实质 是 相 容 效 
度 和 区 分 效 度 法 的 综合 运用 ， 其 原理 是 若 用 多 种 极 不 相同 的 方 
法 测 重 同一 种 特质 相关 很 高 〈 用 极为 相似 的 方法 测量 不 同 特质 
相关 很 低 )， 则 说 明 测 量 效 度 较 高 。 于 是 ,车 有 多 种 特质 (如 
坟 、B、C) 都 接受 了 多 种 方法 (如 1、2、3、4) 的 测 查 ， 就 
可 以 分 别 计算 出 任意 两 种 方法 测量 同一 特质 的 相关 和 测量 不 同 
特质 的 相关 ， 以 及 任意 两 种 特质 接受 同一 方法 和 不 同方 法 的 相 
关 ， 并 以 这 些 相 关系 数 为 元 素 构 成 一 个 矩阵， 如 下 图 所 示 

在 上 表 中 ， 位 于 主 对 角 线 上 的 数值 ， 是 用 同样 的 方法 测 相 
间 特 质 所 得 的 相关 ， 是 信 度 指标 ; 在 实 三 角形 内 的 数值 ， 是 用 
闻 样 方法 测 不 同 特质 所 得 之 相关 。 此 相关 车 高 ， 则 说 明 方法 间 
共同 点 较 多 ; 在 虚线 三 角形 内 的 数值 ， 是 用 不 同方 法 测量 不 同 
特质 所 得 的 相关 ， 它 一 般 较 低 ， 是 特质 与 方法 间 交 互 影 响 的 反 
映 ; 在 虚线 三 角形 之 间 的 两 条 对 角 线 上 的 数值 ， 是 用 不 同方 法 
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测 相同 特质 的 相关 ， 它 是 测验 效 度 的 指标 。 


表 5.1 多 种 特质 一 一 多 种 方法 矩阵 


方法 1 方法 2 方法 3 方法 4 
特质 A B! C A, B, C, A B, Cs A, B,C 





方 hi 站 .58*,25 .10 :95 
法 B ij .21.59*.09 :| .6391 
2 GC: .14 .13.50.: .85 


SR 


方 A 55 :20 .13 : ,69,32 .30 | 
法 B .It..60 19 :| .20..6829 | 
3 Gi; .15 .20..70. | | .21 .19..67.: 


和 Someoneaaaa- 


We 


方太 ff.58 -21 .11 : F661 1.19 : 
法 B -18..6109 :| .30..68.18 
4 | :20 -5 i .22 .18..70. : 
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三 、 实 证 效 度 


1. 实证 效 度 的 含义 、 种 类 及 作用 

实证 效 度 是 指 一 个 测验 对 处 于 特定 情境 中 的 个 体 的 行为 进 
行 估 计 的 有 效 性 。 也 就 是 说 ， 一 个 测验 是 否 有 效 ， 应 该 以 实践 
的 效果 来 作为 检验 标准 。 例 如 ， 当 我 们 用 机 械 能 力 倾向 测验 测 
查 了 一 大 批 机 械 工 人 之 后 ， 若 有 证 据 表 明 测 验 高 分 组 的 实际 工 
作成 绩 确 实 优 于 低 分 组 的 实际 工作 成 绩 ， 则 可 以 认为 该 测验 具 
有 较 高 的 实证 效 度 。 又 如 ,~ 在 军队 选拔 汽车 驾驶 兵 时 ， 若 用 测 
验 选 出 来 的 兵 在 学 习 驾 驶 技术 ， 以 及 日 后 的 驾驶 过 程 中 的 表现 
都 大 大 好 于 以 前 未 用 测验 随意 指派 的 汽车 兵 ， 则 表明 该 测验 也 
具有 较 高 的 实证 效 度 。 | 

在 这 里 ， 被 估计 的 行为 是 检验 测验 效 度 的 标准 ， 简 称 为 效 
标 。 实 证 效 度 主要 重视 那些 与 测验 独立 的 效 标 行为 ， 而 不 太 注 
重 测验 内 容 或 结构 。 实 证 效 度 也 称 效 标 关联 效 度 。 

根据 效 标 资料 搜集 的 时 间 差 异 ， 实 证 效 度 可 以 分 成 同时 效 
叙 和 预测 效 度 两 种 。 例 如 前 文 所 说 的 机 械 能 力 倾 向 测验 ， 其 效 
标 资 料 是 与 测验 分 数 同 时 搜集 的 ， 所 以 它 是 同时 效 度 。 前 文中 
所 说 的 汽车 兵 选拔 测验 ， 其 效 标 资 料 是 在 测验 之 后 根据 实际 工 
作成 绩 来 确定 的 ， 所 以 它 叫 预测 效 度 。 

同时 效 度 主要 用 于 诊断 现状 ， 在 于 用 更 简单 、 更 省 时 、 更 
廉价 和 更 有 效 的 测验 分 数 来 取代 不 易 搜集 的 效 标 资料 。 预 测 效 
度 的 作用 在 于 预测 菜 个 个 体 将 来 的 行为 。 无 论 是 同时 效 度 还 是 
预测 效 度 ， 其 目的 都 是 想 通 过 对 测验 在 一 个 有 代表 性 的 样本 
上 ， 用 实证 的 方法 来 证 明 测验 有 效 ， 于 是 在 今后 就 可 以 用 简便 
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的 测验 去 预测 类 似 于 样本 的 其 他 团体 或 个 体 的 行为 。 因 此 ， 有 
人 把 二 种 效 度 都 称 作 预测 效 度 ， 并 把 测验 称 作 预 测 源 。 

2. 效 标 

估计 测验 的 实证 效 度 的 首要 条 件 是 必须 具有 效 标 ， 那 什么 
是 效 标 ? 效 标 如 何 表 达 ? 
简单 地 说 ， 效 标 就 是 衡量 一 个 测验 是 否 有 效 的 外 在 标准 ， 
它 是 儿 有 立 于 测验 并 可 以 从 实践 中 直接 获得 的 我 们 所 感 兴 趣 的 
行为 。 

不 过 ， 我 们 所 感 兴趣 的 行为 往往 是 一 个 观念 上 的 东西 〈 观 
念 效 标 )， 它 必须 用 一 个 数字 或 等 级 来 进行 表达 ( 效 标 测量 )。 
例如 ， 大 学 入 学 考试 的 观念 效 标 通 常 是 “大 学 学 习 成 功 ”, 它 
的 一 种 常用 的 效 标 测量 便 是 大 学 头 两 年 或 一 年 相关 学 科 的 平均 
成 绩 。 

显然 ,同一 个 观念 效 标 可 以 有 多 个 效 标 测量 (多样 性 )， 
而 且 每 一 种 效 标 行为 往往 都 是 由 多 种 特质 构成 ， 因 此 效 标 测量 
是 件 极为 复杂 的 事 (复杂 性 )。 又 因 效 标 测量 有 多 种 多 样 ， 所 
以 有 些 效 标 测量 只 可 以 反映 测验 在 某 一 特殊 方面 的 有 效 性 程 
度 ， 即 ， 在 一 种 情况 下 有 效 的 测量 ， 在 另 一 种 情况 下 未 必 有 效 
(特殊 性 和 时 间 性 )。 这 就 要 求 测验 的 编制 者 和 使 用 者 要 特别 
小 心 。 

一 般 说 来 ， 效 标 测量 要 想 较 好 地 体现 观念 效 标 ， 那 效 标 测 
量 本 身 就 必须 是 有 效 的 和 可 靠 的 ， 而 且 还 必须 客观 、 实 用 。 

在 心理 与 教育 测量 工作 中 ， 常 用 的 效 标 主要 有 : 学 业 成 
就 、 等 级 评定 、 临 床 诊 断 、 专 门 的 训练 成 绩 、 实 际 的 工作 表 
现 、 对 团体 的 区 分 能 力 以 及 其 他 现成 的 有 效 测 验 。 这 些 效 标 可 
以 是 连续 变量 ， 也 可 以 是 离散 型 变量 ; 可 以 是 自然 的 现成 指 
标 ， 也 可 以 是 人 为 设计 的 指标 ; 可 以 是 主观 判断 ， 也 可 以 是 客 
观测 量 ; 可 以 是 自我 评定 ， 也 可 以 是 他 人 评定 等 等 。 
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3. 实证 效 度 的 确定 方法 

实证 效 度 的 确定 方法 大 体 上 可 以 分 为 以 下 几 个 步骤 ，@ 明 
确 观念 效 标 。@@ 确 定 效 标 测 量 。@@ 考 察 测验 分 数 与 效 标 测 量 的 
关系 。 

从 效 度 估计 的 方法 上 看 ， 实 证 效 度 可 以 用 以 下 方法 进行 
估计 : 

(1) 相关 法 。 

实证 效 度 的 一 种 常用 估计 方法 是 计算 测验 分 数 与 效 标 测量 
的 相关 系数 〈( 积 差 相关 法 、 等 级 相关 法 、 二 列 相关 法 、 四 分 相 
关 法 等 等 )。 例 如 ， 张 厚 紧 教授 在 主持 修订 瑞 文 标准 推理 测验 
(SPM) 时 ， 她 报告 的 同时 效 度 就 是 北京 一 所 普通 中 学 45 名 
12 ~ 15 岁 学 生 同 时 接受 SPM 和 韦 氏 儿童 智力 测验 得 分 的 积 差 
相关 系数 ， 和 预测 效 度 则 是 对 北京 市 两 所 中 学 69 名 高 三 学 生 先 
施 测 SPM ， 再 搜集 这 批 学 生 3 个 月 后 的 高 考 成 绩 ， 最 后 计算 
SPM 成 绩 与 高 考 语文 、 数 学 和 总 分 的 积 差 相关 。 

{2) 区 分 法 。 

该 方法 的 思路 是 ， 被 试 接受 测验 后 ， 让 他 们 工作 一 段 时 
间 ， 再 根据 工作 成 绩 《 效 标 测 量 ) 的 好 坏 分 成 两 组 。 这 时 再 回 
过 头 来 分 析 这 两 组 被 试 原 先 接受 测验 的 分 数 差 异 ， 若 这 两 种 人 
的 测验 分 数 差异 显著 ， 则 说 明 该 测验 有 较 高 的 效 度 。 

{3) 命中 率 。 

当 用 测验 作 取 含 决 策 时 ， 决 策 的 正 命中 率 和 总 命中 率 是 测 
验 有 效 性 的 较 好 指标 。 其 中 ， 总 命中 率 是 指 根据 测验 选 出 的 人 
当中 工作 合格 的 人 数 ， 以 及 根据 测验 淘汰 的 人 当中 工作 不 合格 
的 人 数 之 和 与 总 人 数 之 比 。 若 总 命中 率 高 ， 则 说 明 测 验 的 效 度 
高 。 这 种 测验 在 区 别 合格 与 不 合格 方面 是 有 效 的 。 此 外 ， 有 些 
测验 只 关心 被 选 者 中 合格 者 有 多 少 ， 而 不 关心 被 淘汰 者 中 是 否 
有 合格 者 。 这 时 测验 的 效 度 应 该 用 测验 的 正 命中 率 来 评价 。 所 
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请 正 命中 率 是 指 用 测验 选 出 的 人 中 合格 者 所 占 的 比例 ， 这 个 比 
例 越 高 ， 测 验 越 有 效 。 

不 过 ， 在 评价 一 个 测验 的 效 度 时 ， 还 要 注意 测验 使 用 的 功 
利率 比例 ， 即 ， 使 用 测验 所 带 来 的 好 处 应 大 大 高 于 使 用 测验 所 
耗费 的 时 间 、 精 力 各 经费， 还 要 比较 用 测验 与 不 用 测验 的 效益 
之 差 ， 若 差别 不 大 ， 则 无 使 用 测验 之 必要 。 


第 三 节 ”提高 测量 效 度 的 方法 
一 、 影 响 测 量 效 度 的 因素 


严格 地 说 ， 凡 是 与 测量 目的 无 关 的 稳定 的 和 不 稳定 的 变异 
来 源 都 会 影响 测量 的 效 度 。 这 就 是 说 ,测验 本 身 的 构成 、 受 测 
被 试 的 特点 、 施 测 的 过 程 、 阅 卷 评分 、 分 数 的 转换 与 解释 等 一 
切 与 测量 有 关 的 环节 都 可 能 影响 测量 的 效 度 。 现 择 其 主要 方面 
给 予 说 明 。 

1. 测验 的 构成 

当 组 成 测验 的 试题 样本 没有 较 好 地 代表 和 欲 测 内 容 或 结构 
时 ， 测 量 的 内 容 效 度 或 结构 效 度 就 必然 会 不 高 。 同 时 ， 若 题目 
语义 不 清 、 指 导语 不 明 、 题 目 太 难 或 太 易 、 题 目 太 少 或 安排 不 
当 等 等 ， 都 会 降低 测量 效 度 。 一 般 而 言 ， 增 加 测验 的 长 度 可 以 
提高 测量 信和 度 ， 进 而 为 提高 测量 效 度 提供 了 可 能 。 于 是 ， 一 些 
研究 者 便 得 出 了 测验 长 度 与 敬 度 的 公式 如 下 : 
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r(UKx)y = 本 = EE (5.2) 
式 中 ro), 是 测验 x 增长 至 原来 的 K 倍 后 ， 新 测验 与 效 标 〈y) 
的 相关 ( 效 度 系数 ); K 为 测验 增长 的 倍数 ; r,, 为 原 测验 的 效 
度 系数 ;rex 为 原 测验 的 信 度 系数 。 

2. 测验 的 实施 过 程 

一 个 测验 在 实施 过 程 中 ， 如 不 遵从 指导 语 的 要 求 、 或 出 现 
意外 干扰 、 或 评分 计 分 出 现 差错 等 等 ， 都 会 降低 测量 效 度 。 

3. 接受 测验 的 被 试 

一 般 情 况 下 ， 被 试 的 应 试 动机 、 情 绪 、 态 度 、 身 体 状态 等 
等 ， 都 会 影响 测量 信 度 ， 造 成 较 大 的 随机 误差 ， 进 而 影响 测量 
的 效 度 。 

就 整个 被 试 团体 而 言 ， 如 果 缺 乏 必 要 的 同 质 性 ， 则 很 可 能 
会 得 到 不 恰当 的 效 度 资料 。 有 时 候 ， 同 样 一 个 测验 ， 对 年 龄 、 
性 别 、 文 化 程度 、 职 业 等 方面 不 同 的 被 试 团 体 ， 常 常 表现 出 不 
同 的 预测 能 力 ， 即 具有 不 同 的 测量 效 度 。 事 实 上 ， 被 试 团体 的 
年 龄 、 人 性 别 、 文 化 程 谱 与 职业 等 方面 的 特征 ， 常 常 成 为 干涉 变 
量 。 我 们 在 考察 效 度 时 ， 要 特别 注意 测验 在 不 同 团体 上 的 效 
果 ， 避免 出 现 测 验 偏 傍 (test bias)。 

4. 所 选 效 标的 性 质 

由 于 同一 个 测验 可 以 有 不 同 的 效 标 ， 同 一 个 观念 效 标 也 可 
以 有 不 同 的 效 标 测 量 ， 所 以 在 评价 测量 效 度 时 ， 所 选 效 标的 性 
质 是 很 重要 的 考虑 因素 。 

有 的 学 者 指出 ， 智 力 测验 分 数 与 教师 对 学 生 等 级 评定 之 间 
的 效 度 系数 只 要 在 0.30 ~ 0.50 之 间 就 可 以 了 ， 因 为 教师 的 评 
价 会 受到 与 智力 无 关 的 其 他 因素 的 影响 。 与 此 类 似 ， 相 同 科目 
的 标准 化 测验 成 绩 与 教师 评价 之 间 的 相关 应 达到 0.60 ~ 0.70， 
两 种 不 同 智力 测验 或 标准 化 测验 之 间 的 相关 应 达到 0.60 ~ 
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0.80 等 等 。 所 有 这 些 不 同 的 要 求 ， 主 要 是 因为 所 用 效 标 的 不 
同 而 提出 来 的 。 

在 考虑 效 标 与 分 数 的 相关 时 ， 有 一 个 因素 是 必须 重视 的 ， 
即 测验 分 数 与 效 标 之 间 是 否 符合 线性 关系 的 问题 。 因 为 皮尔 撑 
积 差 相关 的 前 提 之 一 是 二 变量 间 具 有 线性 关系 ， 否 则 会 得 出 错 
误 的 效 度 结论 。 这 就 要 求 我 们 在 选用 相关 系数 的 计算 公式 时 ， 
注意 各 公式 的 使 用 条 件 。 

5. 测量 的 信和 度 

前 文 已 经 论 及 ,测量 信和 度 是 测量 的 随机 误差 的 反映 ， 而 任 
何 误差 的 增加 都 会 降低 测量 的 效 度 ， 所 以 在 考察 测量 效 度 时 ， 
一 定 要 注意 测量 信 度 。 信 和 度 不 高 的 测验 不 可 能 具有 很 高 的 测量 
效 度 。 


二 、 提 高 测量 效 度 的 方法 


要 想 提 高 测量 效 度 ， 就 必须 设法 控制 随机 误差 、 减 小 系统 
误差 ， 同 时， 还 要 选择 好 特别 恰当 的 效 标 ， 把 效 度 系数 准确 地 
计算 出 来 。 具 体 来 说 ， 下 述 方法 能 提高 测量 效 度 : 

(1) 精心 编制 测验 量 表 ， 吉 免 出 现 较 大 的 系统 误差 。 

这 就 要 求 题目 样本 要 能 较 好 地 代表 和 欲 测 内 容 或 结构 ， 要 避 
免 出 现 题 避 偏 倚 (item bias)。 同 时 ， 题 目的 难 易 程 度 、 区 分 
度 也 要 恰当 ， 题 目的 数量 也 要 适中 。 太 难 、 太 易 、 太 多 、 太 少 
都 是 有 损 测 量 效 度 的 。 此 外 ， 测 验 试卷 的 印 制 ， 题 目 作 管 的 要 
求 ， 评 分 计 分 的 标准 ， 题 目 意 思 的 表述 等 等 ， 都 必须 严格 检 
” 查 ， 避 人 免 一 切 可 避免 的 误差 的 出 现 。 

(2) 妥善 组 织 测验 ， 控 制 随机 误差 。 
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在 测验 实施 过 程 中 ， 系 统 误 差 一 般 不 太 明 显 、 但 随机 误差 
却 有 可 能 失控 。 这 就 要 求 测验 实施 者 一 定 要 严格 按 手册 指导 语 
进行 操作 ， 要 尽 景 减少 无 关 因 率 的 干扰 。 

(3) 创设 标准 的 应 试 情 境 ， 让 每 个 被 试 都 能 发 挥 正常 的 
水 平 。 | 

在 各 种 测验 中 、 有 些 被 试 往往 因 种 种 原因 而 发 挥 不 出 应 有 
水 平 〈 比 如 过 分 焦虑 致使 水 平 失常 等 )， 因 此 ， 我 们 应 让 被 试 
调整 好 应 试 心态 ， 让 他 们 从 生理 上 、 心 理 上 、 学 识 上 等 艇 好 应 ， 
有 的 准备 。 和 否则 ， 集 虚 因 素 和 其 他 无 关 因素 影响 过 大 ， 必 然 会 
降低 测量 效 度 ， 测 不 到 欲 测 的 内 容 或 结构 。 

(4) 选 好 正确 的 效 标 、 定 好 恰当 的 效 标 测量 ， 正 确 地 使 用 
有 关公 式 。 

在 评价 一 个 测验 是 否 有 效 时 ， 效 标的 选择 是 一 个 重要 方 
面 。 假 车 所 选 效 标 不 当 ， 或 所 选 效 标 无 法 量化 ， 则 很 难 正确 地 
估计 出 测量 的 实证 效 度 。 如 果 效 标 及 效 标 测量 都 合乎 要 求 ， 则 
公式 的 选择 也 是 影响 效 度 估计 的 重要 方面 。 


、 练习 与 思考 


1. 什么 是 测量 效 度 ? 它 与 信 度 的 关系 怎样 ? 

2. 什么 是 内 容 效 度 ? 测验 编制 者 和 使 用 者 应 分 别 从 哪 刀 
个 方面 来 把 握 内 容 效 度 ? 

3. 什么 是 结构 效 度 ? 测验 编制 者 和 使 用 者 应 分 别 怎样 把 
舞 结 构 效 度 ? 

4. 什么 是 实证 效 度 ? 它 与 内 容 效 度 和 结构 效 度 有 何 异 同 ? 

5. 什么 是 效 标 和 效 标 测量 ? 

6. 已 知 I =0.31, ry =0.42， 着 希望 把 效 度 系 数据 高 到 
0.65 和 0.70， 则 测验 长 度 要 增加 几 倍 ? 
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7. 复习 有 关 教育 与 心理 统计 知识 ， 弄 清 各 种 相关 系数 的 
计算 方法 与 使 用 条 件 。 

8 ”. 假设 某 学 者 自 编 了 一 套 神经 类 型 测验 ， 并 且 在 几 十 万 
人 中 进行 了 试用 ， 试 问 该 测验 是 否 一 定 有 效 ? 
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第 六 章 “测验 的 项 目 分 析 


本 章 提要 : 

@@ 测 验 项 目 难 度 的 意义 ， 难 度 指标 的 计算 及 项 目 难 锚 
对 测验 的 影响 。 

全 测验 项 目 区 分 度 的 意义 ， 区 分 度 的 求法 、 区 分 度 对 
测验 质量 的 影响 。 

看 测验 猜测 问题 的 纷争 。 

全 多 重 选 择 题 的 项 目 分 析 方 法 。 
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第 一 节 ”测验 的 难度 
一 、 难 度 的 意义 


难度 是 指 测验 项 目的 难 易 程度 。 一 个 测验 项 目 ， 如 果 大 部 
分 被 试 都 能 答对 ， 则 该 项 目的 难度 就 小 ; 如 果 大 部 分 被 试 都 不 
能 答对 ， 则 该 项 目的 难度 就 大 。 


二 、 难 度 的 计算 


测验 的 记分 方法 不 同 ， 项 目 难 度 的 计算 方法 也 有 所 不 同 。 


(一 ) 二 分 法 记分 项 目的 难度 

1. 通过 率 

如 果 不 考 虑 被 试 作答 是 猜测 成 功 的 机 过 ， 二 分 法 记分 测验 
项 目的 难度 通常 以 通过 率 来 表示 ， 即 以 答对 或 通过 该 项 目的 人 
数 的 百分比 来 表示 ; 


P 
式 中 ,PP 代表 项 目 难度 ，N 


《6.1) 
全 体 被 试 数 ，R 为 答对 通过 
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-人 


该 项 目的 人 数 。 
例如 ， 在 200 个 学 生 中 ， 答 对 某 项 目的 人 数 为 120 人 ， 则 


该 项 目的 难度 为 P= 1 -0.60。 


以 通过 率 表示 项 目的 难度 时 ， 通 过 人 数 越 多 ，P 值 越 大 ， 
其 难度 越 小 ; 通过 人 数 越 少 , P 值 越 小 ， 难 度 越 大 ， 题 目 越 
难 。 所 以 有 人 也 称 P 值 为 容易 度 。 事 实 上 ， 这 里 的 P 值 与 我 
们 通常 所 理解 的 难度 意义 正好 相反 。 

2. 极端 分 组 法 

当 被 试 人 数 较 多 时 ， 则 可 以 先 将 被 试 依照 测验 总 分 从 高 到 
低 排列 ,分 成 三 组 ， 总 分 最 高 的 27% 被 试 称 为 高 分 组 (Na)， 
总 分 最 低 的 27% 被 试 为 低 分 组 《Ni)， 分别 计算 高 分 组 和 低 分 
组 的 通过 率 ， 然 后 求 项 目的 难度 。 


(6.2) 
或 = (Ns + Nr {6.2') 
式 中 Pn、PL 分 别 表示 高 分 组 和 低 分 组 的 通过 率 ; Ry、Ri 表 
示 高 分 组 和 低 分 组 通过 该 项 目的 人 数 ; Nan、NL 分 别 代表 高 分 
组 和 低 分 组 的 人 数 。 | 

例如 ， 在 370 名 被 试 中 ， 选 为 高 分 组 和 低 分 组 的 被 试 各 有 
100 人 ， 其 中 高 分 组 有 70 人 答对 第 1 题 ， 低 分 组 有 40 人 答对 
第 1 题 ， 则 第 1 是 的 难度 为 : 


40 1 
T1060) = 了 {0.70 +0.040) =0.55 


1 ,70 
P= (160+ 
(二 )〉 非 二 分 法 记分 项 目的 难度 
对 于 论述 题 ， 每 个 项 目 不 只 有 答对 和 答 错 两 种 可 能 结果 ， 
而 是 从 满分 至 零 分 之 间 有 多 种 可 能 结果 。 对 这 类 项 目 ， 常常 用 
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下 面 的 公式 来 计算 其 难度 。 
P=- 王 (6.3) 


Xmax 


式 中 入 为 被 试 在 某 一 项 目 上 的 平均 得 分 ，xmsx 为 该 项 目的 
满分 。 

例如 ， 数 学 测验 的 第 七 题 满分 的 15 分 ， 该 题 考 生 的 平均 
得 分 为 9.6 分 ， 则 该 题 的 难度 为 : 


x 9.6 
P= 15 =0.64 





P= 


三 、 测 验 难 度 水 平 的 确定 


进行 难度 分 析 的 主要 让 的 是 为 了 筛选 项 目 ， 项 目的 难度 水 
平 多 高 合适 ， 取决 于 测验 的 目的 的 项 目 形 式 以 及 测验 的 性 质 。 

在 教育 工作 或 实际 工作 中 ， 若 测验 的 目的 是 为 了 了 解 被 试 
在 某 方面 知识 技能 的 掌握 情况 ， 可 以 不 必 过 多 地 考虑 难度 ， 只 
杰 教育 者 认为 重要 的 内 容 就 可 以 选用 ， 甚 至 那些 100%% 适 过 或 
通过 率 为 0 的 项 目 都 可 以 采用 。 例 如 ， 在 某 单元 教学 之 前 ， 要 
了 解 学 生 对 所 要 教学 的 内 容 准备 情况 所 作 的 预备 测验 ， 凡 乎 每 
个 项 目 都 将 产生 很 低 的 通过 率 ， 但 这 些 项 目 不 应 淘汰 ， 因 为 它 
们 表明 了 哪些 内 容 需 要 学 生 认 真 学 习 并 加 以 掌握 。 而 在 教 完 某 
部 分 知识 以 后 ， 为 了 检查 学 生 的 掌握 情况 所 进行 的 测验 ， 即 使 
每 道 项 目 都 有 很 高 的 通过 率 ， 这 些 项 目 仍然 是 可 用 的 ， 它 们 表 
明 学 生 的 掌握 程度 。 

如 果 测 验 的 目的 是 用 于 选拔 录用 人 员 ， 就 应 该 将 项 目的 难 
度 控 制 在 接近 录取 率 左 右 ， 即 较 多 地 采用 那些 难度 值 接近 录取 
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率 的 项 目 。 例 如 ， 要 从 高 中 生 中 选拔 15% 的 人 参加 全 市 的 数 
学 竞赛 ， 则 就 应 提高 项 目的 难度 ， 使 了 值 接近 0.15。 


四 、 难 度 的 等 距 变 换 


以 项 目的 通过 率 来 表示 项 目的 难度 ， 虽 然 计 算 方 便 ， 易 于 
理解 ， 但 这 类 难度 指标 属于 顺序 变量 ， 不 具有 相等 的 单位 ， 所 
指出 的 仅仅 是 项 目的 相对 难度 。 例 如 ，3 个 测 题 的 难度 指数 分 
别 为 0.60、0.70、0.80， 我 们 只 能 说 ， 第 一 题 最 难 ， 第 二 题 
次 之 ， 第 三 题 最 容易 。 虽 然 三 题 难度 分 别 相 差 109%， 但 我 们 
并 不 能 说 第 一 题 与 第 二 题 的 难度 之 差 等 于 第 二 题 与 第 三 题 的 难 
度 之 差 。 通 过 率 P 无 法 指出 难度 之 间 差 异 大 小 ,可见 顺 序 性 
这 一 点 ， 对 我 们 作 进 一 步 的 难度 分 析 带 来 了 困难 ， 必 须 设 法 将 
它 转 换 成 等 距 量 表 。 





-80 -20 -ig 


图 6.1 正 态 分 布下 通过 率 与 工 值 的 关系 


当 样本 容量 很 大 时 ， 测 验 分 数 将 接近 正 态 分 布 。 此 时 ， 我 
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Ce— 


们 可 以 根据 正 态 分 布 曲 线 表 ， 将 试题 的 难度 P 作为 正 态 曲线 
下 的 面积 ， 转 换 成 具有 相等 单位 的 等 距 量 数 ， 即 Z 分 数 。 我 
们 知道 ， 在 正 态 分 布 中 ,平均 数 之 上 或 之 下 一 个 标准 差 的 距离 
约 占 全 笨 人 数 的 34%， 人 此， 如 果 在 一 个 测验 中 某 项 目 A 通 
过 率 为 84% (P=0.84),， 那么 从 图 (6.1) 可 以 看 出 ， 这 项 目 
的 难度 就 在 平均 数 以 下 一 个 标准 差 位 置 ， 即 难度 为 ~ 1c; 如 果 
某 项 目 B 的 通过 人 数 只 有 16%，( =0.16) 则 这 个 项 目的 难度 
为 +1oc; 车 某 题 C 恰好 有 50% 的 人 通过 (p=0.50)， 则 该 题 
的 难度 为 0， 应 用 此 方法 ， 任 何 一 个 与 通过 率 相当 的 难度 值 都 
可 以 通过 查 正 态 分 布 表 得 到 。 显 然 ， 较 难 的 项 目 难度 为 正 值 ， 
较 易 的 项 目 难 度 为 负 值 。 由 于 标准 分 数 具 有 相等 单位 ， 属 于 等 
距 量 表 。 所 以 ， 用 标准 分 数 作为 项 目 难度 的 指标 ， 为 进一步 作 
难度 分 析 带 来 了 极 大 的 方便 。 

但 是 ，Z 分 数 有 小 数 点 和 负 值 ， 所 以 表示 难度 也 有 不 便 之 
处 ,通常 需要 转换 成 另 一 种 单位 的 等 距 量 表 。 其 中 较为 常用 的 
是 美国 教育 测验 服务 中 心 采用 的 难度 指标 ， 

人 =13+4'2 (6.4) 

式 中 ， 公 表示 题目 难度 ，Z 表示 由 P 值 转换 得 来 的 标准 
分 数 。 

例如 ， 上 面 所 举 的 例 中 ， 其 全 难度 值 为 : 

项 目 A:; 通过 率 P=0.84 Z= -1 公 =13+4x (-1) 
=9 

项 目 8: 通过 率 P=0.16 Z=1 公 =13+4x1=17 

项 目 C: 通过 率 P=0.$0 Z=0 人 =13+4x0=13 

模 据 正 态 分 布 表 ,可 以 知道 ， 公 是 以 25 为 上 限 ，1 为 下 
限 的 等 距 量 表 ， 公 值 钝 大 ， 则 难度 愈 高 ， 公 值 全 小， 难度 越 低 。 
”对 一 般 教师 来 说 ， 只 要 计算 出 P 值 即 可 。 但 如 果 要 作 更 
精确 的 统计 分 析 ， 则 就 需要 计算 出 具有 等 距 量 表 性 质 的 公 值 。 
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五 、 难 度 对 测验 的 影响 


(一) 测验 难度 影响 测验 分 数 的 分 布 形态 

测验 的 难度 直接 依赖 于 组 成 测验 的 项 目的 难度 。 道 过 考察 
测验 分 数 的 分 布 ， 可 以 对 测验 的 难度 作出 直观 分 析 。 

车 测验 项 目的 难度 普遍 较 大 ， 被 试 的 得 分 普遍 较 低 ， 使 得 
测验 分 数 集中 在 低 分 端 ， 其 分 数 分 布 呈现 正 偏 态 ; 当 测验 题目 
的 难度 普遍 较 小 ， 被 试 的 得 分 普遍 较 高 ， 测 验 分 数 集 中 在 高 分 
端 ， 分 数 分 布 呈 现 出 负 偏 态 。 

测验 难度 过 大 或 过 小 ， 都 会 造成 测验 分 数 偏离 正 态 分 布 。 
但 是 ， 由 于 人 的 多 数 心理 特质 是 正 态 分 布 。 而 我 们 目前 所 采用 
的 统计 分 析 方 法 《例如 前 面 介绍 的 难度 的 等 距 交 换 ) 又 大 都 是 
以 正 态 分 布 为 前 提 ， 所 以 大 多 数 测验 在 设计 时 希望 分 数 呈 现 正 
态 分 布 模式 。 因 此 ， 当 测验 的 分 数 分 布 为 明显 偏 态 时 ， 可 通过 
改变 项 目 难 度 的 比例 来 加 以 调整 。 通 常 ， 若 被 试 的 取样 上 共有 代 
表 性 ， 对 于 中 等 难度 的 测验 ， 其 分 数 分 布 呈现 正 态 分 布 。 


(二 ) 测验 难度 影响 测验 分 数 的 离散 程度 

过 难 或 过 易 的 测验 ， 会 使 测验 分 数 相 对 地 集中 在 低 分 端 或 
高 分 端 ， 从 而 使 得 分 数 的 全 上 工 综 小 。1965 年 区 伯 尔 (R.L 
Ebel) 用 三 套 各 包含 有 几 个 项 目的 测验 进行 研究 ， 各 套 测验 的 
分 数 分 布 见 图 (6.2) 了 ?了 ， 从 图 形 可 见 ， 当 难度 集中 在 0.50 附 
近 时 ， 分 数 的 分 布 范 围 较 广 ， 方差 较 大 (so = 2.6); 而 当 难 度 
集中 在 两 端 ， 即 不 是 太 难 ， 就 是 太 易 时 ， 分 数 分 布 范 畦 最 小 
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(e=1.60)。 根 据 信 度 公式 ru = 1 - 吗 可 知 ， 分 数 分 布 范围 较 


广 ， 测 验 信和 度 较 高 ， 反 之 则 信 度 值 较 低 。 可 见 ， 项 目的 难度 以 
集中 在 0.50 左右 最 佳 ， 以 集中 两 极端 最 差 。 





图 6.2 试题 难度 与 测验 分 数 分 布 的 关系 
DR. 工 艾 伯 尔 《 教 育 测量 网 要》 漆 书 青 等 译 ， 第 274 页 (江西 师范 大 学 高 教研 究 宣 》 
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此 外 ,项 目的 难度 对 项 目的 鉴别 能 力 有 一 定 的 联系 ， 这 一 
点 将 在 本 章 第 二 节 中 讨论 。 


第 二 节 ”测验 的 区 分 度 
一 、 区 分 度 的 意义 


区 分 度 是 指 测 验 项 目 对 被 试 心理 品质 水 平 差异 的 区 分 能 
力 。 具 有 良好 区 分 度 的 项 目 ， 能 将 不 同 水 平 的 被 试 区 分 开 来 ， 
也 就 是 说 ， 在 该 项 目 上 水 平 高 的 被 试 得 高 分 ， 水 平 低 的 被 试 得 
低 分 。 反之， 区 分 度 低 的 项 目 则 对 不 同 水 平 被 试 不 能 很 好 地 鉴 
别 ， 水 平 高 与 水 平 低 的 被 试 ， 所 得 分 数 差 不 多 ， 其 至 正好 相 
反 。 所 以 测量 专家 们 把 试题 的 区 分 度 称 为 测验 是 否 具 有 效 度 的 
“指示 器 "”， 并 作为 评价 项 目 质量 ， 筛 选项 目的 主要 指标 与 依 
据 。 必 须 指出 ; 评价 测验 项 目 区 分 度 高 低 依赖 于 对 被 试 水 平 的 
准确 测量 ， 通 常 称 作为 效 标 分 数 。 测 验 项 目 区 分 度 的 效 标 分 数 更 多 
的 是 用 测验 总 分 ， 称 作为 内 部 效 标 。 

区 分 度 (D) 的 取 值 范围 介 于 -1.00 至 +1.00 之 间 。 通 
常 D 为 正 值 ， 称 作 积极 区 分 ; D 为 负 值 为 消极 区 分 ; D 为 0 称 
作 无 区 分 作用 。 具 有 积极 区 分 作用 的 项 目 ， 其 D 值 越 大 ， 区 
分 的 效果 越 好 。 


知识 宝库 考研 社区 (ww .1zhao org 友情 提 示 : 购买 原版 ， 饮 水 思源 ! 
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二 、 区 分 度 的 计算 


项 目 区 分 度 的 计算 方法 很 多 ， 各 种 方法 在 含义 上 略 有 差 
别 。 在 使 用 时 ， 我 们 可 以 根据 测验 的 目的 ， 以 及 项 目 记分 和 测 
验 总 分 的 两 个 变量 的 性 质 不 同 ， 而 选择 不 同 的 计算 方法 。 当 
然 ， 有 时 可 以 同时 用 几 种 计算 方法 相互 验证 。 


《一 ) 项 目 鉴 别 指数 法 

这 种 方法 较 适合 于 二 分 法 记分 的 测验 项 目 。 

1. 鉴别 指数 的 计算 

当 效 标 成 绩 是 连续 变量 时 ,可 以 从 分 数 分 布 的 两 端 各 选择 
27% 的 被 试 ， 分别 计算 出 每 道 题 目 上 的 各 自 的 通过 率 ， 二 者 之 
差 就 是 鉴别 度 指 数 (D)， 即 : 

D = Pak - Pi (6.5) 

式 中 Pu 与 Pi 分 别 为 高 分 组 与 低 分 组 在 该 项 目 上 的 通过 率 。 

例如 高 分 组 在 某 一 项 目的 通过 率 为 0.75， 低 分 组 的 通 
过 率 为 0.35， 则 该 项 目的 鉴别 指数 为 D= Pu- P=0.75- 
0.35=0.40。 当 D=1.00 时 ， 高 分 组 被 试 全 部 通过 ， 低 分 组 
被 试 全 部 失败 。 相 反 ， 如 果 低 分 组 的 被 试 全 部 通过 ， 商 分 组 的 
被 试 全 部 失败 ， 则 D = - 1.00。 如 果 两 组 的 通过 率 相 等 ， 则 D 
=0。 

D 值 是 鉴别 项 目测 量 有 效 性 的 指标 ，D 值 越 高 ， 项 目 越 有 
效 。1965 年 ， 美国 测验 专家 R.L.Ebel 根据 长 期 经 验 提出 用 鉴 
别 指数 评价 题目 性 能 的 标准 如 表 6.1 所 示 。 
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表 6.1 题目 鉴别 指数 与 评价 价 标 % 





鉴别 指数 D 
0.40 以 上 
0.30 ~0.39 
0.20~0.29 
9.19 以 下 
















良好 、 修 改 会 更 好 
尚 可 、 仍 需 修 改 
差 、 必 须 淘 汰 






由 于 编制 测验 不 容易 ， 一 般 情况 下 人 们 宁 放 修改 项 目 ， 也 
不 愿 轻易 舍弃 项 目 。 当 然 上 述 标准 也 不 是 绝对 的 ， 还 必须 根据 
测验 的 目的 、 人 性质、 要 求 来 决定 项 目的 取 仿 。 

2. 极端 组 的 划分 

在 项 目 难 度 和 鉴别 指数 分 析 中 多 次 提 到 划分 高 分 组 与 低 分 
组 ,一般 情况 下 ， 是 根据 效 标 成 绩 或 测验 总 分 将 被 试 排队 ， 取 
27% 的 高 分 端 被 试 组 成 高 分 组 ， 另 外 27% 的 低 分 端 被 试 作为 
低 分 组 ， 其余 46% 的 被 试 可 以 不 作 分 析 。 有 人 和 曾 证 明 (Kel- 
ley，1939) 当 分 数 分 布 是 正 态 分 布 时 ， 这 种 分 配方 法 很 有 效 ， 
它 既 可 以 使 两 个 对 比 组 间 的 差异 尽 可 能 大 ， 又 可 以 使 两 组 人 数 
尽 可 能 多 。 当 效 标 分 数 较 正 态 分 布 平 坦 时 ， 高 低 分 组 各 占 的 比 
率 应 略 高 于 27%， 约 在 33% 左 右 。 一 般 情况 下 ， 其 比率 介 于 
25% ~33% 即 可 。 但 如 果 是 标准 化 测验 ， 习 惯 上 仍 采 用 27%。 
如 果 比 率 太 小 ， 如 10%， 则 所 选 出 来 的 两 组 过 于 极端 ， 二 者 
之 间 的 差异 非常 明显 ， 人 为 夸大 了 题目 的 区 分 程度 ; 当 样 本 团 
体 人 数 过 少时 (n< 100)， 则 不 宣 用 27 色 的 规则 ， 甚 至 可 以 用 
50 久 作为 分 界 点 ， 即 把 上 、 下 两 半 被 试 作为 高 分 组 与 低 组 。 

使 用 极端 分 组 法 主要 是 为 了 计算 方便 ， 但 是 这 种 方法 只 利 


@ .L.Ebel;: 《教育 测量 缚 要 》， 滞 书 育 等 泽 ， 江 西 师 大 高 教室 印 。 
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用 了 一 部 分 信息 ， 浪 费 了 很 多 信息 ， 所 以 统计 结果 比 用 全 部 资 
料 计算 的 准确 性 差 一 些 。 当 项 目 与 效 标 之 间 是 直线 关系 时 ， 这 
种 分 析 法 对 结果 的 准确 性 来 说 影响 不 大 。 但 当 项 目 与 效 标 之 间 
并 非 直线 关系 时 ， 使 用 极端 分 组 法 会 表 失 许多 有 价值 的 信息 ， 
甚至 可 能 得 出 错误 结论 。 


(二 ) 相关 法 

用 鉴别 指数 分 析 项 目 区 分 度 虽 然 易 于 理解 ， 计 算 方 便 ， 但 
结果 不 精确 。 在 大 规模 的 或 标准 化 的 测验 中 ， 多 采用 相关 法 ， 
即 以 项 目 分 数 与 效 标 分 数 或 测验 总 分 的 相关 作为 项 目 区 分 度 的 
指标 。 相 关 越 高 ， 项 目 区 分 度 越 高 。 
” ”1. 点 二 列 相关 

点 二 列 相 关 适 用 项 目 是 0、1 记分 (或 二 分 变量 )， 而 效 标 
或 测验 总 分 是 连续 变量 的 数量 资料 ， 其 计算 公式 为 ; 

th Vpq (6.6) 、 

式 中 : rp 为 点 二 列 相关 系数 ; x 为 通过 该 项 目 被 试 的 平均 效 
标 分 数 ; 为 未 通过 该 项 目 被 试 的 平均 效 标 分 数 ; p 为 通过 该 
项 目 被 试 的 人 数 百分比 g 为 未 通过 该 项 目 被 试 人 数 的 百 分 
比 ; 5, 为 全 体 被 试 的 效 标 分 数 的 标准 差 。 (6.6) 式 也 可 以 写 


LE (6.6') 式 中 元 为 全 体 被 试 的 平均 效 标 分 
数 ， 余 同 (6.6) 式 说 明 。 
例 6.1 15 名 被 试 在 某 测验 第 1 题 上 的 作答 情况 〈 通 过 记 


1 分 ， 未 通过 记 0 分 ) 与 效 标 分 数 见 表 6,2。 
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训 6.2 15 名 被 试 的 效 标 分 数 与 第 一 题 作答 情况 
学 生 序 号 1 2 3 456789101112131415 


效 标 分 数 657031498050351681697855779042 
第 1 题 得 分 0 1 0 1 10100110110 
ND 


试 计算 该 测验 第 1 题 的 区 分 度 。 
由 表 6.2 可 以 求 出 ; 


-\/ 竺 - (对 =- 3 - (SF)? = 21.72 


将 上 述 数据 代 人 公式 (6.6) 或 〈6.6') 得 到 : 
p= p= 各 人们 /0.5333 x0.4667 = 0.4775 


Xx 
或 : We 3 /9 33 - 0.4775 
对 用 点 二 列 相 关 计 算出 的 数值 需 进 行 显 著 性 检验 ， 才 能 确定 其 
意义 。 要 检验 rs 是否 达 到 显著 水 平 ， 常 用 的 检验 方法 有 两 种 : 
@ 采 用 对 积 差 相关 系数 检验 的 方法 进行 检验 (可 参阅 有 关 统 计 
学 教科 书 )。 人 @ 用 t 检验 的 方法 比较 二 分 变量 对 偶 的 两 组 连续 
变量 的 平均 数 的 差异 是 否 显著 ， 如 平均 数 (, 与 x。) 的 差异 
显著 ， 则 相关 系数 也 显著 。 本 例 若 运 用 第 中 种 方法 ， 可 知 mm 
未 达到 0.05 的 显著 性 水 平 ， 所 以 该 项 目的 区 分 度 值得 怀疑 。 
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2. 二 列 相关 

二 列 相关 适用 于 连续 的 测量 变量 。 但 其 中 一 个 变量 因为 某 
种 原因 被 人 为 分 成 两 类 。 例 如 ， 当 一 个 测验 的 项 目 分 数 是 连续 
的 ， 而 效 标 或 测验 总 分 数 被 分 为 高 低 或 及 格 、 不 及 格 两 个 类 别 
时 ， 可 以 采用 二 列 相关 法 ; 当 效 标 或 测验 总 分 是 连续 的 ， 而 项 
目 分 数 被 人 为 分 成 对 、 错 或 通过 、 未 通过 两 类 ， 也 可 以 采用 此 
方法 。 其 计算 公式 为 : 


mm = .bq (6.7) 或 f= 一 4. 卫 (6.7) 
S, y S， 了 


式 中 nm 为 二 列 相关 系数 ; z、x、 刺 、g&、p、q 的 意义 同 点 二 
列 相关 系数 公式 《6.6) 说 明 ; y 为 正 态 分 布下 p 与 q 分 割 点 
正 态 曲线 的 高 度 。 

例 6.2 仍 以 前 述 例 6.1 与 表 6.2 的 资料 ， 以 二 列 相关 法 
计算 区 分 指数 mo 

因为 : p= 0.5333， 在 p、 了 -分割 点 正 态 曲线 高 度 为 y = 
0.3975 (可 通过 查 正 态 分 布 表 获 得 ) 则 ， 


了 -xpq_ 68.50-47.71.0.5333 x0.4667 _ 0 599 
S, yy 21.72 0.3975 


运用 二 列 相关 法 求 项 目 区 分 度 时 ， 要 求 二 分 变量 在 人 为 二 
分 前 的 测量 必须 是 正 态 分 布 ， 如 果 样 本 分 布 不 是 正 态 ， 总 体 分 
布 也 应 该 是 正 态 的 。 对 于 连续 变量 的 分 布 ， 虽 不 要 求 是 正 态 但 
必须 是 单 峰 且 是 对 称 分 布 形 态 。 

二 列 相关 系数 zt 的 显著 性 检验 可 以 用 下 列 公式 检验 。 


Tb 二 


Tb 


1 /pg 
y~NN 


式 中 ， Tb、 7、 Pp、 可 、 的 意义 同 前 ， N 为 被 试 总 人 数 。 对 





(6.8) 


上 全 
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0.599 


7 1 /0.5333x0.4667 
0.3975N 15 


z=1.85<Zo osg=1.96， 未 达到 0.05 的 显著 性 水 平 ， 可 见 
计算 所 得 的 tw 没有 达到 应 有 的 显著 性 水 平 。 

3.9 相 关 

q 相关 的 统计 方法 适用 于 两 个 变量 是 二 点 分 配 的 资料 ， 即 
两 个 变量 都 是 二 分 名 义 变量 。 在 有 些 情 况 下 ， 一 些 连续 变量 
也 可 以 用 此 方法 计算 相关 程度 。9 相关 不 要 求 变 最 呈正 态 分 
布 。 所 求 指 标 为 系数。 

在 用 四 系数 作为 区 分 庆 指 标 时 ， 要 求 项 目 反 应 与 效 标 变量 
都 是 二 分 状态 。 一 般 是 根据 效 标 成 绩 或 测验 总 分 的 高 分 组 和 低 
分 组 ， 通 过 和 未 通过 某 一 项 目的 人 数列 成 的 四 格 表 来 计算 。 计 
算 公 式 为 ; 


1 .85 





二 二 ad— bc 
” Vl(a+b) {c+d) (a+c) (b+d) 
式 中 为 9 的 相关 系数 , a、b、c、d 分 别 为 四 格 表 中 四 项 所 
包含 的 人 次 数 。 
例 6.3 用 表 6.2 数据 为 资料 ,测验 总 分 以 60 分 以 上 为 
升级 ，60 分 以 下 者 为 和 留级， 就 可 以 归 类 为 下 列 的 2x2 表 。 假 
设 以 升学 情况 作为 效 标 ， 此 题 对 于 学 生 的 区 分 度 为 多 少 ? 


(6.9) 


升学 情况 











升级 留级 


6 {a) 2 (b) 
2 (ec) 5 (d) 
8 7 
(b+d) 








8.(a+b) 
7 {c+d) 





a+c) 15N 
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加 ad— bc __6x5-2x2 26_ 
了 Var+b (e+d) (atc) (+d) VaxIxaxi 5 
qm 相关 的 显著 性 检验 可 以 用 re 与 X? 的 关系 式 求 出 ， 并 作 
六 检验 。 
X= Nero {6.10) 
对 例 6.3 X=15x0.4643? =3.234 < X?) =3.841 


所 求 得 的 x 值 未 达到 0.05 的 显著 性 水 平 。 

4. 积 差 相 关 

对 于 论文 式 测验 题目 ， 因 得 分 具有 连续 性 ， 在 被 试 团体 较 
大 时 ， 可 以 认为 项 目 分 数 服 从 正 态 分 布 。 可 将 项 目 得 分 与 效 标 
分 数 求 积 差 相 关系 数 以 得 到 项 目的 区 分 度 。 

以 上 介绍 的 四 种 相关 法 ， 在 实际 项 目 分 析 中 ， 究 竟 采 用 哪 
一 种 ， 依 照 变量 的 性 质 而 定 。 实 际 上 上 ， 虽 然 所 得 的 数值 各 不 相 
同 (re =0.4775, m =0.599，r =0.4643)， 但 经 显著 性 检验 
均 未 达到 0.05 的 显 鞭 水 平 。 因 此 ， 分 析 所 得 的 结果 是 一 致 的 。 


三 、 区 分 度 与 难度 的 关系 


在 讨论 难度 指标 时 ， 曾 提 到 过 测验 项 目的 难度 对 测验 项 目 
的 鉴别 力 有 一 定 的 影响 ， 即 是 说 ， 难 度 与 区 分 度 有 着 密切 的 联 
系 。 以 鉴别 度 指数 D 为 例 。 例 如 ， 某 项 目的 通过 率 为 1.00 或 
0， 则 说 明 高 分 组 与 低 分 组 全 部 通过 或 者 没有 人 通过 。 此 时 ， 
两 组 的 通过 率 没有 差异 。 因 此 ，D =0。 假 如 题目 的 通过 率 为 
0.50， 则 有 可 能 是 高 分 组 的 所 有 被 试 都 通过 了 ， 而 低 分 组 却 无 
大 通过 ， 这 样 D 的 最 大 值 可 能 达到 1.00。 假 如 项 目 通过 率 为 
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0.70， 有 可 能 高 分 组 通过 率 为 1.00， 低 分 组 的 通过 率 为 0.40， 
就 可 使 得 区 分 度 的 值 为 D= 0.60。 根 据 同样 方法 可 求 出 不 同 难 
度 的 项 目 可 能 的 最 大 D 值 ， 见 表 6.3。 


表 6.3 D 的 最 大 值 与 项 目 难度 的 关系 
项 目 通 过 率 〈《P) 












1.00 

0.90 0.20 
0.70 0.60 
0.60 0.80 
0.50 1.00 
0.40 0.80 
0.30 0.60 
0.10 0.20 


0.00 


从 上 表 中 可 以 看 出 ， 难 度 越 接近 0.50， 项 目 潜 在 的 区 分 
疫 越 大 ， 而 难度 D 越 接近 1.00 或 0 时 ， 项 目的 潜在 区 分 度 越 
小 。 这 也 就 是 人 们 在 常 模 参 照 测验 中 ， 要 求 项 目 保持 中 等 难度 
的 道理 之 一 。 

为 了 使 项 目 具有 较 高 的 区 分 能 力 ， 似 乎 应 该 使 所 有 的 项 目 
都 保持 在 0.50 的 难度 最 为 理想 ， 但 是 在 实际 编制 测验 时 ， 我 
们 却 不 能 要 求 这 么 做 。 因 为 一 个 测验 中 的 项 目 大 多 趋向 于 与 有 
关 的 内 容 或 技能 具有 某 种 程度 的 相关 。 假若 所 有 的 题目 都 完 
全 相关 (r=1)， 并 且 都 是 0.50 的 难度 水 平 ， 在 一 个 项 目 上 通 
过 的 人 在 其 他 各 项 目 上 也 会 通过 ， 在 一 个 项 目 上 失败 的 人 ， 在 
其 他 项 目 上 也 将 失败 ， 那 么 一 半 被 试 将 通过 每 一 个 项 目 。 另 一 
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半 被 试 将 全 通 不 过 。 在 这 种 情况 下 ， 测 验 将 只 有 两 种 分 数 ， 满 
分 与 零 分 , 成 Y 型 分 布 。 这 样 ， 从 整体 来 说 ， 测 验 所 提供 的 
信息 便 相对 减少 。 事实 上 ， 如 果 测 验 的 所 有 项 目 都 是 中 等 难 
度 ， 只 有 在 项 目的 内 在 相关 为 0 时， 整个 测验 分 数 才 产生 正 态 
分 布 。 实 际 测验 中 ,一 般 各 项 目 之 间 都 具有 某 种 程度 的 相关 ， 
考虑 到 这 一 点 ， 我 们 在 利用 项 目 分 析 选 择 试题 时 ， 应 使 项 目的 
难度 分 布 广 一 些 ， 梯 度 大 一 些 ， 使 整个 测验 的 难度 分 布 呈 正 态 
分 布 ， 且 平均 水 平 保持 在 0.50 左右 。 这 样 才能 把 各 种 水 平 的 
人 都 区 分 开 来 ， 并 且 区 分 得 比较 细 。 


四 、 区 分 度 的 相对 性 


一 般 来 说 ， 难 度 是 相对 而 言 的 ， 它 与 测验 编制 者 的 技术 经 
验 、 测 验 内 容 、 被 试 团体 、 统 计 计算 方法 等 有 关 。 同 样 ， 项 目 
的 区 分 度 也 是 相对 的 ， 通 常 与 以 下 几 方 面 有 关 。 


(一 ) 不 同 的 计算 方法 ， 所 得 区 分 信 不 同 

这 点 从 前 面 所 举 的 例题 6.1、6.2、6.3 就 可 以 看 出 ， 同 样 
是 运用 相关 法 、 采 用 不 同 的 计算 公式 ， 所 得 数值 不 尽 相同 
(me=0.4775 t=0.599 t=0.4643)， 鉴于 此 ， 在 分 析 同 
一 个 测验 时 ， 各 个 项 目的 区 分 度 值 要 采用 同一 种 指标 ， 否 则 不 
便 分 析 比 较 。 


《二 ) 样本 容量 大 小 影响 相关 法 区 分 度 值 的 大 小 
一 般 说 来 ， 样 本 容量 越 小 ， 其 统计 值 越 不 可 靠 。 所 以 在 计 
算出 * 值 后 ， 不 能 仅 从 数值 大 小 判 浙 试 题 的 优 劣 。 而 应 运用 统 
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计 显 著 性 检验 法 ,检验 区 分 度 值 是 否 显著 。 


《三 ) 分 组 标准 影响 鉴别 指数 值 〈D) 
极端 组 划分 的 标准 不 同 ， 求 得 的 区 分 长 值 也 不 同 。 分 组 越 
极端 ， 其 DD 值 越 大 。 通 常 取 27% 作 为 极端 分 组 划分 的 标准 。 


(四 ) 被 试 样本 的 同 质 性 程度 影响 区 分 度 值 的 大 小 

被 试 团 体 越 具有 同 质 性 ， 即 个 体 之 间 水 平 越 接近 ， 其 测 题 
的 区 分 度 值 就 越 小 。 反 之 ， 车 是 施 测 于 具有 较 大 异 质 狂 的 被 斌 
因 体 ， 即 使 是 对 另外 一 和 三 质 团体 来 说 区 分 度 很 小 的 项 目 ， 也 可 
能 具有 很 高 的 区 分 度 。 另 一 方面 ， 区 分 度 也 是 相对 于 不 同 水 平 
的 被 试 团体 的 。 例 如 ， 用 于 测量 初 二 年 级 教学 水 平 的 试题 ， 对 
于 小 学 生 或 大 学 生来 说 ， 均 不 可 能 有 较 高 的 区 分 度 。 所 以 ， 项 
目的 区 分 度 大 小 是 针对 特定 团体 而 言 的 。 

根据 以 上 4 点 讨论 ,我 们 在 评价 项 目的 有 效 性 时 ， 应 考虑 
到 测验 的 目的 、 功 能 以 及 被 试 团体 的 总 体 水 平 ， 不 能 将 区 分 度 
值 作为 筛选 试题 的 绝对 标准 。 表 6.1 所 提供 的 标准 只 不 过 是 在 
编制 测验 时 的 一 个 参考 标准 而 已 。 


第 三 节 ”猜测 问题 与 猜测 率 


一 、 客 观测 验 题 中 的 猜测 问题 与 猜测 替 


在 客观 题 中 有 一 个 重要 问题 是 : 测验 分 数 确实 反映 了 被 试 
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的 真实 状况 ， 还 是 因为 猜测 而 获得 成 功 。 因 为 在 客观 题 中 ， 猜 
测 会 提高 他 们 的 分 数 ， 在 是 非 题 ， 配 对 题 及 选项 较 少 的 选择 
题 ， 这 种 影响 格外 明显 。 当 被 试 确实 不 知道 正确 答案 ， 而 每 个 
选项 又 具有 同样 的 吸引 力 ， 被 试 赁 猜测 选择 正确 答案 的 机 会 是 


芭 〈K 是 每 题 中 选项 的 数目 )。 这 样 对 是 非 题 (K = 2) 而 言 


猜测 就 能 获得 50% 的 成 功 机 会 ; 而 四 重 选择 题 ， 其 猜测 正确 
的 概率 就 为 25% 。 显 然 ， 大 量 的 猜测 就 会 对 是 非 题 和 选择 题 
的 分 数 产生 很 大 的 影响 、 从 而 对 测量 带 来 误差 ， 即 猜测 误差 。 
猜测 误差 来 源 有 : @D 猜 相对 于 不 猜 引 起 的 误差 ， 如 果 有 100 道 
下 重 选择 题 的 测验 中 〈 设 每 题 1 分 )， 甲 、 乙 两 学 生 都 能 正确 
回答 60 题 ， 两 个 人 的 实际 水 平 相等 。 若 甲 生 不 仅 回 答 确 有 把 
担 的 60 题 ， 而 且 对 不 会 的 40 题 全 和 任 猪 测 做 出 选择 ; 而 乙 生 只 
回答 已 掌握 的 60 题 ， 对 不 会 的 不 作 猜 测 。 在 四 重 选 择 题 中 ， 


对 答案 猜测 成 功 的 概率 为 七 ， 那 么 甲 生平 均 能 猿 对 10 题 ， 可 


获 70 分, 而 乙 生 只 得 60 分 。 在 这 个 假想 的 例子 中 ， 猜 与 不 猜 
所 导致 的 差异 平均 将 达到 10 分 左右 。 加 是否 猜 得 对 直 起 的 误 
差 。 即 猜测 过 程 中 因 随 机 得 分 情况 不 同 所 引起 的 误差 。 按 照 概 


率 原理 ， 是 非 题 猪 对 的 概率 是 了， 四 重 选择 题 是 上 ， 五 重 选 择 


是 是 才 ， 但 这 是 对 被 试 团体 平均 而 言 的 ， 即 N 个 被 试 参加 测 


验 ，100 个 四 重 选择 题 仅 凭 猪 测 能 猜 对 25 题 。 具 体 到 某 一 个 
人 ， 他 实际 猜 对 几 题 并 不 一 定 与 概率 值 相 等 ， 上 面 所 举 的 例子 
中 ,， 甲 生 可 能 猜 对 10 题 而 得 70 分 ， 也 可 能 猜 对 8 题 而 得 68 
分 或 猪 对 12 题 得 72 分 。 这 是 由 猜测 本 身 引起 的 误差 。 通 过 以 
上 两 点 讨论 ， 有 人 认为 ， 由 于 对 某 些 测验 项 目 ， 猜 测 会 引起 项 
目 难度 的 变化 ， 允 许 猜 测 将 使 通过 率 或 得 分 高 于 被 试 的 实际 水 
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平 。 为 此 ， 有 必要 对 猜测 进行 校正 。 
二 、 项 目 难 度 受 猜测 影响 的 校正 


(一 ) 玺 测 校正 的 性 质 与 公式 
在 选择 题 测验 中 ， 猜 测 的 成 功 概率 受 项 目 备 选 答案 数目 


(K) 的 影响 《P= 六)， 备 选 答案 数目 越 少 ， 机 过 的 作用 越 大 ， 


被 试 的 得 分 将 越 高 于 他 们 的 真实 水 平 ， 根 据 难度 的 计算 公式 
(6.1)、(6.2) 求 出 的 难度 的 就 越 不 能 反映 出 项 目的 真实 难度 。 
为 平衡 机 过 对 难度 的 影响 ， 可 采用 下 式 来 对 难度 进行 校正 ; 

KP-1 
K-l 


或 CP=P-&1 (6.11') 


式 中 CP 为 校正 后 的 通过 率 ，P 为 实际 通过 率 ，K 为 备 选 答案 
数 自 ; q= 工 - po 

如 果 要 比较 两 个 选项 数目 不 同 的 测 是 难度， 必须 应 用 公式 
(6.11) 分 别 将 两 个 测 题 的 难度 进行 校正 ， 然 后 才能 进行 比较 
分 析 。 

例 6.4 有 A、B 两 个 测 题 ， 项 目 A 为 四 重 选择 题 ， 通 过 率 
为 0.58; 项 目 B 为 五 重 选 择 题 ， 通过 率 为 0.56; 试 比 较 两 题 
的 难度 。 

解 采用 公式 (6.11) 对 难度 进行 校正 ， 消 除 猿 测 因素 的 


影响 。 
KP-1 4x0.58-1 _ 
对 项 目 As CP= 下 -= 一 4 人 1 =0.44 





CP = (6.11) 
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对 项 目 B: CcP= 下 -= 一 2 一 =0.45 

如 果 根 据 未 经 校正 的 难度 相 比 ，A 项 目 比 B 项 目 容 易 
(0.58 > 0.56)， 根据 校正 后 的 难度 相 比 ，B 项 目 比 A 项目 还 
稍 容易 些 (0.45 > 0.44)， 其 结论 正好 与 校正 前 相反 。 可 见 在 
这 种 情况 下 ， 必 须 经 过 校正 后 ， 才 能 进行 比较 。 因 为 选项 数目 
不 同 的 选择 题 ， 受 猜测 机 过 的 影响 大 小 不 同 。 

公式 (6.11) 是 对 全 体 被 试 而 言 的 ， 即 根据 被 试 团体 在 某 
项 目 上 的 通过 率 而 计算 校正 难度 。 若 对 某 个 被 试 来 说 ， 参 加 由 
多 个 项 目 所 组 成 的 测验 ， 同 样 有 必要 对 他 们 的 得 分 进行 校正 ， 
以 求 出 能 反映 出 他 真实 水 平 的 校正 分 数 ， 校 正 公 式 只 需 将 公式 
(6.11) 稍 作 变换 即 到 下 式 

W 


S=R-K-7I (6.12) 


式 中 S 为 校正 后 的 得 分 ，R 为 被 试 答对 的 项 目 数 ，W 为 被 试 
答 错 的 项 目 数 ，K 为 项 目的 选项 数目 。 

例如 ， 某 被 试 参加 由 100 道 四 重 选择 题 组 成 的 测验 ， 测 验 
结果 是 答对 82 道 题 ， 答 错 18 题 ， 该 被 试 的 实 得 分 数 为 (每 题 


1 分 ) S= 82 -5 = 76 (分 )。 其 理由 在 于 四 择 一 选择 题 中 ， 
每 题 猪 对 的 概率 为 十 ， 猪 错 的 概率 为 卫 ， 该 被 试 答 错 18 题 ， 


说 明 他 猜测 了 24 道 题 (24x 世 = 18)， 其 中 猜 对 6 题 (24 x 二 
=6)。 因 此 ， 实 际 确 能 掌握 的 只 有 76 道 题 。 


(二 ) 犹 测 校正 的 优 缺 点 

公式 (6.11)、(6.12) 的 基本 假设 是 : 被 试 不 知道 正确 答 
案 时 ， 完 全 和 赁 猜测 作答 。 猜 测 的 成 功 与 否 完全 由 随机 因素 所 
致 ， 即 选择 万 一 个 备 选项 是 随机 决定 的 。 在 实际 测验 中 ， 这 种 
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很 设 很 少 成 立 。 因 此 ， 对 上 述 校正 公式 存在 很 大 的 分 岐 。 

狗 成 使 用 犹 测 校正 公式 的 人 认为 : 

(1) 可 避免 降低 测验 的 信和 度 。 办 为 如 果 不 使 用 校正 公式 ， 
被 试 必然 会 育 目 猜测 而 影响 测验 的 信 度 ; 使 用 答 错 愿 倒 扣 一 定 
的 分 数 ， 则 被 试 不 敢 育 目 猜测 。 

(2》 校正 后 的 得 分 可 以 反映 被 试 的 真正 水 平和 能 力 。 对 每 
个 项 目 来 说 ,校正 后 可 以 反映 项 目的 真实 难度 ， 便 于 在 备 选 答 
案 数 自 之 间 进 行 统计 比较 分 析 。 

(3) 在 教育 测验 中 ， 可 以 培养 被 试 诚实 的 美德 。 如 果 鼓 励 
尽量 答题 ， 并 允许 猜测 ， 且 不 扣 分 ， 则 会 使 学 生 心 存 侥幸 ， 有 
害 于 健全 人 格 的 培养 。 反 之 ， 如 果 采 取 校 正 猜测 ， 则 可 养 成 学 
生 “ 知 之 为 知之 ， 不 知 为 不 知 ”的 良好 品德 。 

(4) 比较 公平 。 即 使 事前 鼓励 学 生 答 完 全 部 试题 ， 但 事实 
上 总 有 人 无 法 答 完全 部 试题 ， 所 以 使 用 猜测 校正 的 方式 比较 公平 。 

反对 使 用 猜测 校正 公式 的 人 认为 : 

(1) 公式 的 基本 假设 不 成 立 。 因 为 被 试 答 错 试题 ， 并 非 都 
是 存心 投机 取 巧 。 事实 上 ， 有 些 学 生 答 错 ， 可 能 是 观念 模糊 、 
记忆 错误 或 粗心 大 意 所 致 。 大 多 数 情况 下 ， 均 是 先 舍弃 部 分 诱 
答 ， 再 就 剩 下 的 几 个 选项 来 猜测 ， 而 非 盲 目 猜测 。 

(2) 只 要 被 试 能 答 完全 部 试题 ， 则 猜测 校正 无 实质 作用 。 
根据 统计 学 方法 ， 将 分 数 转化 为 相对 分 数 后 ， 校 正 前 后 的 分 数 
完全 相同 ,说 明 两 种 分 数 对 于 决定 分 数 的 高 低 具 有 相同 的 作 
用 。 明 然 校 正 前 后 分 数 不 同 ,但 两 者 的 相关 系数 为 1.00， 所 
以 采用 校正 ， 只 是 采用 线性 变换 ， 降 低 被 试 的 得 分 ， 增 加 记分 
的 复杂 性 ,不 仅 浪费 时 间 ， 且 易 发 生 错 误 。 

(3) 不 采用 猜测 校正 对 信和 度 并 无 重大 影响 。 根 据 台 湾 学 者 
黄 国 彦 研究 (1977): 鼓励 被 试 猜测 ， 其 影响 只 有 4% 左 古 ， 
此 项 缺点 可 通过 增加 试题 的 数目 来 提高 测验 信和 度 。 
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(4) 有 时 会 出 现 无 法 解释 现象 。 一 个 学 生 如 果 答 对 的 题 数 
等 于 或 少 于 答 错 的 题 数 。 校 正 后 便 会 得 到 零 分 或 负 分 。 例 如 ， 
在 一 个 有 100 道 四 重 选择 题 的 测验 中 ， 某 被 试 答对 22 题 、 答 
错 78 题 (每 题 ! 分 )， 此 人 校正 后 的 分 数 为 S= 22 - 2 = 
-4 (分 )， 这 是 难以 解释 的 。 因 为 按 普通 常识 来 说 ， 即 使 一 点 
都 不 了 解 测验 所 测 的 知识 内 容 ， 也 不 过 得 零 分 ， 而 不 至 于 得 负 
分 的 。 

(5) 实际 生活 中 ， 经 常 缺 乏 充分 的 证 据 与 资料 ， 必 需 凭 借 
部 分 知识 来 判断 ， 且 进行 合理 猜测 是 值得 培养 的 习惯 。 测 验 
时 ， 若 不 准 被 试 猜测 ， 则 与 现实 生活 情况 不 符 。 事 实 上 ， 许多 
科学 上 的 发 现 是 在 把 握 不 很 大 的 情况 下 ， 先 提出 猜想 ， 而 后 慢 
慢 证 实 的 。 人 的 菜 些 猜测 依 敬 的 是 直觉 思维 ， 这 是 对 事物 整体 
的 认识 ,虽然 没有 经 过 严密 的 逻辑 推理 ， 但 并 非 完全 睹 猜 。 

综 上 所 述 可 知 ， 对 于 是 否 需要 采用 猜测 校正 ， 并 无 定论 。 
但 是 在 答题 时 间 充 裕 ， 备 选 答案 数目 〈《K)》 在 四 个 或 以 上 的 先 
择 题 ， 则 没有 必要 进行 校正 记分 。 


第 四 节 ”多 重 选 择 题 的 项 目 分 析 


多 重 选择 题 因 能 比较 有 效 地 控制 随机 猜测 导致 的 测量 误 
差 ， 能 测量 较 复杂 认 知 目标 ， 能 为 改进 教学 提供 更 多 的 反馈 信 
息 ， 且 具有 易于 评分 、 能 用 计算 机 阅卷 等 优点 ， 在 教育 与 心理 
测验 中 ， 应 用 极其 广泛 。 对 于 多 重 选 择 题 ， 当 然 可 以 采用 本 章 
第 一 、 二 节 所 介绍 的 内 容 ， 进 行 难度 与 区 分 度 分 析 。 为 了 进 一 
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步 提高 测验 质量 ， 充 分 发 挥 选择 题 的 功能 ， 除 了 进行 难度 区 分 
度 分 析 之 外 ， 还 应 对 被 试 在 项 目 作答 反应 上 进行 分 析 。 对 多 重 
选择 题 作 项 目 分 析 ， 可 以 解决 以 下 问题 。 

(1) 项 目 是 否 具有 所 预期 的 功能 ?对 于 常 模 参照 测验 ， 测 
题 是 否 有 足够 的 区 分 度 ? 对 目标 参照 测量 来 说 ， 测 题 是 否 能 充 
分 地 测量 到 教学 的 结果 ? 

(2) 项 目的 难度 是 否 得 当 ? 

(3) 项 目 是 否 有 缺陷 ? 

(4) 诱 答 选 项 是 否 都 有 效 ? 

对 于 (1)、(2) 两 点 ， 可 采用 本 章 第 一 、 二 两 节 所 介绍 的 
方法 进行 分 析 。 本 节 主 要 就 (3) 、(4) 两 点 进行 讨论 ， 即 通过 
被 试 对 选择 项 反应 模式 的 分 析 来 改进 并 提高 测验 项 目的 质量 。 

具体 分 析 的 步骤 

(1) 按 被 试 汶 验 的 总 分 ， 从 高 到 低 依次 排列 试卷 。 

(2) 从 最 高 分 依次 向 下 取 全 部 试卷 的 27% 作 为 高 分 组 。 

(3) 从 最 低 分 依次 向 上 取 全 部 试卷 的 27% 作 为 低 分 组 。 

(4) 分 别 登 记 高 分 组 与 低 分 组 选中 各 选择 项 的 人 数 〈 亦 可 
将 人 数 换 为 人 数 比例 )， 然 后 登记 。 

(5) 根据 登记 结果 进行 选择 项 的 质量 分 析 。 

对 选择 项 的 反应 模式 注意 从 以 下 几 方 面 进行 分 析 : 

(1) 如 果 正 确 的 备 选 答案 被 所 有 的 受 测 者 所 选择 ， 说 明 该 
项 目 太 容易 或 者 可 能 是 项 目 中 提供 某 种 暗示 ， 使 正确 答案 过 于 明显 。 

(2) 如 果 某 个 错误 答案 没有 任何 被 试 选 择 ， 则 说 明 该 选项 
不 具有 迷惑 性 ， 错 得 过 于 明显 ， 除 增加 阅读 时 间 外 ， 不 起 任何 
作用 。 一 般 说 来 ， 除 非 有 2% 以 上 的 人 的 选择 ， 否 则 该 备 选 答 
案 应 该 修改 或 删 掉 。 

(3) 如 果 所 有 被 试 都 选择 了 同一 个 错误 答案 ， 可 能 是 编制 
测验 时 把 正确 答案 搞 错 了 ， 也 可 能 是 在 教学 中 发 生 了 错误 。 
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《4) 如 果 高 分 组 被 试 的 选择 集中 在 两 个 答案 上 ， 二 者 选择 
率 相近 ， 说 明 该 题 可 能 本 来 就 有 两 种 正确 答案 ， 或 者 在 某 种 意 
义 寺 另 一 个 选择 项 也 有 一 定 的 道理 。 

(5) 如 果 高 分 组 对 正确 答案 的 选择 率 与 低 分 组 相等 或 低 于 
后 者 ， 说 明 该 题 所 考察 的 东西 与 被 试 水 平 无 关 ， 即 不 具有 鉴别 
力 ， 此 题 应 揣 除 或 作 大 的 修改 。 

(6) 如 果 一 个 题目 被 试 未 作答 的 人 数 较 多 《速度 性 测验 除 
外 )， 或 选择 各 个 备 选 答案 的 人 数 相 等 ， 说 明 该 项 目 可 能 过 难 
或 题 意 不 清 ， 被 试 无 法 作答 或 赁 猜测 作答 。 

在 实际 进行 分 析 时 ， 可 以 将 多 重 选 择 题 的 选 答 情况 登记 在 
一 张 选择 分 析 表 中 ， 以 便于 进行 分 析 评 价 。 葡 举例 如 下 。 

例 6.5 下 表 为 一 个 由 370 人 参加 的 测验 中 的 4 道 题 的 项 
目 统计 结果 ， 据 此 表 对 此 四 题 作 分 析 评 价 。 





该 表 中 的 高 分 组 、 低 分 组 是 按 测 验 总 分 的 高 低 ， 从 370 人 
中 按 27% 的 人 比例 选取 的 。 
(1) 难度 。 第 一 题 的 难度 较 小 ， 第 二 题 难度 适中 ,第 三 、 
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第 下 两 题 难度 较 大 。 

(2) 区 分 度 。 第 一 、 第 二 两 题 的 区 分 度 符 合 要 求 具 备 良好 
的 测 题 的 首要 条 件 ， 第 三 、 第 四 两 题 的 区 分 度 不 够 ， 第 四 题 太 
小 ,而 第 三 题 则 是 负 向 的 ， 此 两 题 均 为 不 良 试题 。 

(3) 各 题 的 选项 分 析 。 第 一 题 : 正 误 答案 配 比 较 好 。 第 二 
题 : 除 C 答案 缺乏 鉴别 能 力 外 ， 其 余 都 不 错 。 但 值得 注意 的 
是 为 什么 在 C 答案 上 ， 高 低 分 组 的 选 答 人 数 相 同 。 第 三 题 ; 
未 答 的 人 数 比例 过 大 ， 且 答案 B、C、D 均 属 于 负 疝 的 ， 高 分 
组 选 C 的 人 数 较 多 ， 等 于 选 正确 答案 D 的 人 数 ， 这 些 均 要 研 
究 。 第 四 题 : A 项 选 答 的 人 数 较 少 ， 是 否 因 为 该 选项 错 得 太 明 
显 而 缺 乏 似 真性 ， 另 外 D 选项 也 有 负 向 性 ， 须 找 出 原因 加 以 
适当 修改 。 

练习 与 思考 


1. 测验 项 目 分 析 的 作用 是 什么 ? 
2. 某 测验 对 11 名 被 试 施 测 ， 结 果 数 据 如 下 表 ， 试 计算 各 题 的 





第 七 章 测验 常 模 
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本 章 提要 : 

全 名 种 常用 导出 分 数 及 其 之 间 的 关系 
便 名 种 测验 分 数 合成 的 方法 

全 常 模 编制 及 常用 常 模 
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从 测验 中 坦 接 获得 的 分 数 ， 称 为 原始 分 数 。 它 是 通过 将 被 
试 的 反应 与 标准 答案 相 比较 而 获得 的 。 但 是 原始 分 数 本 身 并 不 
具有 多 大 意义 ， 在 实际 应 用 中 ， 需 要 配 以 可 供 比较 的 标准 ， 将 
原始 分 数 转换 以 得 到 有 意义 的 、 可 供 解释 的 分 数 。 这 种 比较 标 
准 就 是 由 原始 分 数 的 分 布 转换 过 来 的 具有 参照 点 和 单位 的 测验 
量 表 。 本 章 首先 介绍 几 种 常用 的 分 数 转换 方法 与 导出 分 数 ， 然 
后 讨论 常 模 量 表 的 制定 过 程 和 方法 ， 并 介绍 几 种 主要 的 常 模 参 
照 分 数 。 


第 一 节 “分数 转换 


一 、 原 始 分 数 与 导出 分 数 


被 试 在 接受 测验 后 ， 根 据 测 验 的 记分 标准 ， 对 照 被 试 的 反 
应 所 计算 出 的 测验 分 数 称 作 原 始 分 数 。 原 始 分 数 反映 了 被 试 答 
对 题目 的 个 数 或 作答 正确 的 程度 。 但 是 原始 分 数 一 般 不 能 直接 
反映 出 被 试 之 间 的 差异 状况 ， 不 能 刻 划 出 被 试 相 互 比较 后 所 处 
的 地 位 ， 也 不 能 说 明 被 试 在 其 他 等 值 测验 上 应 获得 什么 样 的 分 
值 。 为 了 使 原始 分 数 本 身 具有 意义 ， 使 不 同 测验 的 分 数 可 以 相 
互 比较 ， 就 必须 将 原始 分 数 转换 为 导出 分 数 。 

导出 分 数 就 是 在 原始 分 数 转 换 的 基础 上 ， 按照 一 定 的 规 
则 ， 经 过 统计 处 理 后 获得 的 具有 一 定 参 考点 和 单位 ， 且 可 以 相 
互 比较 的 分 数 。 这 种 按 某 种 规则 将 原始 分 数 转化 为 导出 分 数 的 
过 程 称 作 为 分 数 的 转换 。 常 用 的 导出 分 数 有 百 分 等 级 、 标 准 分 
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数 、T 分 数 等 。 
二 、 百 分 等 级 分 数 


《一 ) 百 分 等 级 分 数 的 概念 

百 分 等 级 是 应 用 最 广 的 导出 分 数 。 一 个 原始 分 数 的 百 分 等 
级 是 指 在 一 个 群体 的 测验 分 数 中 ， 得 分 低 于 这 个 分 数 的 人 数 的 
百分比 。 也 就 是 说 ， 如 果 将 某 一 被 试 群体 分 为 一 百 个 等 级 ， 则 
每 位 镇 试 所 占 的 等 级 数 就 是 百 分 等 级 。 便 如 ， 某 一 被 试 在 一 项 
测验 中 得 82 分 ， 经 过 换算 ， 百 分 等 级 分 数 为 75， 就 表示 参加 
该 项 测验 的 人 得 分 低 于 82 分 的 占 全 体 被 试 的 75% ， 并 说 明 超 
过 他 的 成 绩 82 分 的 人 仅 有 25% ， 我 们 通常 用 Pa 来 表示 百 分 
等 级 。 显 然 ， 百 分 等 级 取 值 越 大 ,说 明成 绩 越 优秀 。 


(二 ) 百 分 等 级 分 数 的 计算 

1. 未 分 组 分 数 资 料 

对 于 未 分 组 分 数 资料 ， 求 一 个 原始 分 数 的 下 分 等 级 ,可 先 
将 被 试 团体 的 全 体 原始 分 数 从 大 到 小 排序 ， 然 后 采用 下 列 公 式 计算 ; 
1000 50 (7.1) 


式 中 ，Pa 为 百 分 等 级 ，R 为 排名 顺序 的 序号 ，N 为 被 试 
总 人 数 。 
例如 : 某 被 试 在 一 次 由 50 人 参加 的 成 绩 测 验 中 得 80 分 ， 
排名 第 9， 则 该 生成 绩 (80 分 ) 的 百 分 等 级 为 : 


1l00R -50 _ _100x9-350 _ 
N 50 


Pra = 100 - 


PR = 100 - 100 83 
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其 百 分 等 级 为 83， 即 是 说 比 80 分 低 的 原始 分 数 占 全 体 得 
分 的 83% ， 比 其 高 的 只 占 17%。 

2. 分 组 分 数 资 料 

如 果 被 试 团体 较 大 ， 往 往 已 对 分 数 作 过 初步 整理 ， 分 数 资 
料 通常 以 次 数 分 布 表 的 形式 时 更 ， 此 时 ， 可 采用 下 列 公 式 求 得 
百 分 等 级 。 


prs, Pu] (7.2) 


式 中 X 为 被 试 原始 分 数 ，L 为 X 所 在 组 下 限 ，{ 为 X 所 在 
组 的 次 数 ，F, 为 X 所 在 组 以 下 各 组 次 数 之 和 ，i 为 组 距 ，N 与 
Pa 同 (7.1) 式 解 释 。 

例 7.1 一 次 由 250 人 参加 的 教学 测验 ， 分 数 经 整理 ， 分 
布 情况 见 表 7.1， 某 被 试 得 分 为 78 分 ， 试 求 其 百 分 等 级 。 


表 7.1 250 名 学 生 数学 测验 原始 分 数 次 数 分 布 


次 数 (f) 累积 次 数 (f) 





解 ， 先 求 向 上 累积 次 数 〈 列 于 表 中 第 3 列 ) 
由 上 表 可 知 ; X=78, N=250, i=5, L=75. FF = 142， 
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100 -XxX-L 100 -78 -75 
从 = 一 一 -一 。 = 340 
代入 公式 (7.2) 得 Pi = N [ i f+ F,] 250 [ 5 
x49+142] =68.56 


百 分 等 级 往往 按 四 舍 五 人 原则 取 为 整数 ， 故 该 生 的 百 分 等 
级 为 69。 


(三 ) 对 百 分 等 级 分 数 的 评价 

百 分 等 级 是 一 种 相对 位 置 量 数 ， 上 其 有 可 比 性 ， 且 具有 易于 
计算 、 解 释 方便 等 优点 ， 对 一 般 教师 、 学 生 和 和 家 长 来 说 ， 均 能 
了 解 百 分 等 级 的 意义 ， 所 以 它 较 适 用 于 不 同 的 对 象 和 性 质 不 同 
的 测验 。 另 外 ， 百 分 等 级 不 受 兰 始 分 数 分 布 状态 的 影响 ， 即 使 
分 数 分 配 不 是 正 态 的 ， 也 不 会 改变 百 分 等 级 常 模 的 解释 能 力 。 

但 百 分 等 级 是 一 种 顺序 量 数 ， 它 在 统计 分 析 中 不 具有 可 加 
性 。 在 实际 应 用 中 ， 有 以 下 两 个 缺点 ; 

(1) 单位 不 等 ， 尤其 在 分 配 的 两 个 极端 。 如 果 原 始 分 数 的 
分 配 是 正 态 或 近似 正 态 分 布 ， 则 敬 近 中 央 (平均 数 或 中 位 数 附 
近 ) 的 原始 分 数 转 换 成 百 分 等 级 时 ， 分数 之 间 的 差异 便 夺 大 
了 ， 昌 然 原 始 分 数 比 较 和 车 近 ， 但 转换 成 百 分 等 级 后 ， 却 显示 出 
很 大 的 差异 性 ; 对 接近 两 极端 的 原始 分 数 ， 百 分 等 级 反应 述 
钝 ， 即 使 原始 分 数 发 生 较 大 的 变化 ， 也 不 能 引起 百 分 等 级 的 相 
应 变化 ， 使 得 其 差异 被 缩小 了 。 例 如 表 7.1 的 资料 中 ， 厌 始 分 
数 606、65 和 70、75 两 对 数据 ， 虽 然 原始 分 数 之 差 均 为 5 分 ， 
但 转换 为 百 分 等 级 后 ， 其 差异 就 会 有 很 大 的 区 别 ， 前 者 只 差 
10.4 个 百 分 等 级 (15.6% ~5.2%)， 而 后 者 则 相差 26 个 百 分 
等 级 (56.8% ~30.8%)， 两 者 有 明显 区 别 。 

(2》 百 分 等 级 只 具有 顺序 性， 而 无 法 用 它 来 说 明 不 同 被 试 
之 间 分 数 差 异 的 数量 。 例 如 。 某 被 试 甲 在 一 个 成 就 测验 中 的 百 
分 等 级 为 10， 被 试 乙 为 20， 被 试 丙 为 30， 我 们 只 能 说 丙 优 于 
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乙 ， 乙 优 于 甲 ， 刹 不 能 推断 他 们 之 刘 差 异 的 程度 相等 ， 因 此 ， 
百 分 等 级 不 适合 计算 平均 数 、 相 关系 数 及 其 他 统计 量 数 。 

另外 ， 在 运用 百 分 等 级 时 应 注意 到 ， 百 分 等 级 是 相对 于 特 
定 的 被 试 团体 而 言 的 ， 所 以 ， 解 释 时 不 能 离开 特定 的 参照 团 
体 。 被 试 得 分 不 变 ， 但 参照 团体 改变 了 ， 百 分 等 级 值 就 可 能 发 
生变 化 。 例 如 ， 某 被 试 成 绩 80 分 ， 以 他 所 在 班 为 参照 团体 ， 
可 能 处 在 第 75 百 分 等 级 上 ， 但 车 以 全 年 级 为 参照 团体 ， 其 百 
分 等 级 就 不 一 定 是 第 75 百 分 等 级 了 。 如 果 他 所 在 班 本 次 测验 
在 全 年 级 中 是 优秀 的 班 ， 则 他 的 百 分 等 级 值 可 能 会 高 于 75， 
反之 ,若是 差 的 班 则 就 会 低 于 75。 所 以 在 报告 百 分 等 级 时 ， 
一 定 要 说 明 是 相对 于 什么 的 参照 团体 来 说 的 。 


三 、 标 准 分 数 


(一 ) 标准 分 数 的 意义 

标准 分 数 是 一 种 具有 相等 单位 的 量 数 ， 又 称 作 Z 分 数 ， 
以 Z 玫 示 。 它 是 将 原始 分 数 与 团体 的 平均 数 之 差 除 以 标准 差 
所 得 的 商 数 ， 是 以 标准 差 为 单位 度 重 原始 分 数 离开 其 平均 数 的 
分 数 之 上 多 少 个 标准 差 ， 或 是 在 平均 数 之 下 多 少 个 标准 差 。 它 
是 一 个 抽象 值 ， 不 受 原始 测量 单位 的 影响 ， 并 可 接受 进一步 的 
统计 处 理 。 


《二 》 标 准 分 数 的 计算 
标准 分 数 的 计算 公式 为 : 


2 = 一 < 一 (7.3) 
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Z: 标准 分 数 ; X; 原始 分 数 ; 立 : 团体 所 有 被 试 的 原始 分 
数 的 平均 数 ; S: 原始 分 数 的 标准 差 


(三) 对 Z 分数 的 评估 

Z 分 数 是 以 一 批 分 数 的 平均 数 为 参照 点 ， 以 标准 差 为 单位 
的 等 距 量 表 。2Z 分 数 不 仅 具有 可 比 性 ， 而 且 还 具有 可 加 性 ， 它 
由 符号 与 绝对 值 两 部 分 构成 。 正 负 符 号 表示 原始 分 数 在 平均 数 
之 上 或 之 下 ,绝对 值 表示 原始 分 数 与 平均 数 的 距离 。 除 此 之 
外 ，Zz 分 数 还 具有 以 下 两 个 重要 性 质 ; 

(1) 运用 (7.2) 式 所 求 得 的 Z 分 数 ， 实 际 上 只 是 对 原始 
分 数 X 所作 的 一 个 线性 变换 ， 所 以 Z 分 数 与 原始 分 数 X 的 分 
布 形 态 相 同 。 若 原始 分 数 不 服 从 正 态 分 布 ， 转 换 成 Z 分 数 后 ， 
其 分 布 仍然 非 正 态 。 

(2) 任何 一 组 原始 分 数 经 转换 为 Z 分 数 以 后 均 有 7 = 0、 
Sz=1， 所 以 可 以 利用 Z 分 数 对 不 同 测验 分 数 进行 比较 。 如 果 
藉 始 分 数 属 正 态 分 布 或 近似 正 态 ， 则 Z 分 数 的 范围 大 致 在 
-3.00 到 +3.00 之 间 ( 约 占 全 体 的 99.73%)。 

但 ZZ 分数 由 于 计算 中 经 常 出 现 负数 和 小 数 ， 且 单位 过 大 
(一 个 标准 差 单位 )， 所 以 ,使 用 起 来 不 够 方便 。 


《四 ) 正 恋 化 的 标准 分 数 

将 原始 分 数 转换 成 导出 分 数 的 原因 之 一 ， 是 为 了 对 不 同 测 
验 中 的 分 数 进行 比较 。 但 是 Z 分 数 与 原始 分 数 的 分 布 形态 相 
同 ， 所 以 只 能 在 两 个 原始 分 数 分 布 形 态 相同 或 近 时 才能 运用 Z 
分 数 进行 比较 ， 否则 ， 仍 然 无 法 作 直 接 比 较 分 析 。 比 如 说 ， 若 
两 个 分 布 的 偏 斜 方向 不 同 ， 或 一 个 正 态 、 一 个 为 篇 态 ， 则 相同 
的 Z 分数 可 能 代表 不 同 的 百 分 等 级 ， 对 于 这 两 个 测验 分 数 ， 
仍然 无 法 准确 比较 。 为 了 使 来 源 于 不 同 分 布 的 分 数 进行 比较 ， 
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可 使 用 非 线性 变换 ， 将 非 正 态 分 布 的 分 数 强制 性 地 扭转 成 正 态 
分 布 。 具 体 敌 法 为 ， 首先 将 每 个 原始 分 数 转 换 为 百 分 等 级 ， 然 
后 使 用 正 态 分 布 表 ,将 对 应 的 百 分 等 级 直接 看 成 是 正 态 分 布 曲 
线 下 的 面积 值 ， 找 出 所 对 应 的 Z 值 (偏差 值 )， 这 种 方式 所 得 
到 的 分 数 叫 作 正 态 化 的 标准 分 数 。 图 (7.1) 即 为 负 偏 态 分 布 
转换 为 正 态 分 布 的 示意 图 。 





图 7.1 负 偏 态 分 布 正 态 化 图 


四 、 标 准 分 数 的 变 式 


(一 ) T 分 数 
1.T 分 数 的 意义 
由 于 2 分数 常常 带 有 小 数 和 出 现 负 值 ， 使 用 起 来 常 觉 不 
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便 ， 也 容易 出 错 ， 并 且 与 日 常生 活 中 的 评分 形式 不 一 致 ， 不 直 
观 。 因 此 ， 产 生 了 多 种 将 Z 分 数 作 线 性 变换 ， 使 负 号 与 小 数 
消失 ， 全 部 变 为 正 数 的 转换 方法 。 最 早 由 美国 测量 学 家 麦 柯 尔 
建议 (1939) 将 Z 分 数 扩大 10 人 和信 (以 消除 小 数 ) 再 加 上 50 
(消失 负 号 )。 为 纪念 推 兰 与 桑 代 克 ， 这 种 转换 后 的 分 数 命名 为 
T 分 数 。 所 以 了 分 数 实际 上 是 由 标准 分 数 直 接 转 换 而 来 。 后 
来 ， 人 们 在 麦 柯 尔 思 想 的 基础 土 ， 又 衍生 出 多 种 导出 分 数 。 

2.T 分 数 的 计算 

最 初 ， 麦 柯 尔 所 采用 的 分数 为 ; 

T=10:Z+50 (7.4) 

式 中 ，T 为 分数，Z 为 标准 分 数 。 

麦 柯 尔 的 分数 是 对 单 科 标 准 分 数 的 变换 ，T 在 [0，100] 
之 间 ，T 分 数 的 平均 数 为 50， 标准 差 为 10,T 分 数 涟 免 了 小 
数 与 负 号 。 但 如 果 原 始 分 数 服 从 正 态 分 布 ， 转 换 后 的 T 分 数 ， 
就 有 一 半 的 人 在 50 分 以 下 ， 车 不 加 区 别 地 当成 百分制 分 数 使 
用 ， 并 简单 地 以 通常 采 闲 的 60 分 为 及 格 线 ， 势 必 就 有 83% 以 
上 的 被 试 不 及 格 ， 则 与 日 常 教育 测验 中 分 数 的 解释 就 相 迟 了 。 


《二 ) 其 他 形式 
按 建 立 T 分 数 的 思想 ， 在 Z 分数 的 基础 上 ， 进 行 线性 变 
换 ， 导 出 了 多 种 适合 不 同 需要 的 标准 分 数 形式 。 其 通 式 为 ; 
2Z' =A'Z+B (7.5) 
式 中 Z 为 由 Z 导出 的 导出 分 数 ，A、B 为 常数 。 
常见 的 变化 形式 有 : 
(1) 美国 大 学 人 学 考试 委员 会 使 用 的 标准 分 数 ， 即 CEEB 
分 数 ， 公 式 为 ; 
| CEEB 分 数 = 100.Z+ 500 (7.6) 
平均 分 数 为 500， 标 准 差 为 100。 
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(2) 韦 氏 智力 测验 采用 的 离 差 智 商 ， 转 换 公 式 为 : 
IQ = 15.Z+ 100 (7.7) 
IQ 平均 为 100， 标准 差 为 15。 
(3) 我 国 一 种 出 国人 员 英 语 水 平 考试 即 EPT 所 使 用 的 分 
数 转 换 公式 为 : 
EPT 分 数 =20.Z+90 (7.8) 
平均 分 数 为 909， 标 准 差 为 20。 


(三) 标准 分 数 变 式 的 评价 

以 上 介绍 了 几 种 常见 的 标准 分 数 变化 形式 ， 它 们 都 是 以 Z 
分 数 为 基础 进行 线性 变换 而 来 。 它 们 具有 以 下 几 点 优点 : 

(1) 具有 等 单位 特点 ， 便 于 工作 进一步 的 统计 分 析 。 

(2) 正 态 分 布下 ， 可 以 利用 正 态 分 布 表 将 各 种 导出 分 数 与 
百 分 等 级 分 数 作 换算 : | 

(3) 正 态 分 布下 ， 运 用 某 种 变 式 分 数 可 以 将 几 个 测验 上 的 
分 数 作 直接 的 比较 。 即 使 是 非 正 态 分 布 ， 也 可 运用 由 正 态 化 的 
Z 分 数 转换 而 得 的 变 式 分 数 进行 直接 比较 分 析 。 

关于 变 式 分 数 的 缺陷 ,主要 归纳 为 以 下 几 点 : 

(1) 分 数 过 于 抽象 ,不易 理 解 ， 正 如 在 介绍 麦 柯 尔 的 
分 数 时 所 提 到 的 那样 不 为 一 般 人 所 热 悉 。 

(2) 在 非 正 态 分 布下 ， 分 布 形态 不 同 的 变 式 分 数 ， 仍 然 不 
可 以 作 相互 比较 ， 也 不 能 相 加 求 和 。 


五 、 标 准 九 分 数 


标准 九 分 数 是 将 原始 分 数 分 成 几 个 部 分 的 标准 分 数 系统 。 
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若 原始 分 数 服 从 正 态 分 布 ， 它 是 以 0.5 个 标准 差 为 单位 ， 将 正 
态 曲 线 下 的 横 轴 分 为 凡 段 ， 最 高 一 端 为 9 分 ， 最低 一 端 为 1 
分 ， 中 间 一 段 为 5 分， 除 两 端 (1 分 , 9 分 ) 外 ， 每 段 均 有 半 
个 标准 差 宽 。 在 正 态 分 布下 ， 每 个 标准 九 分 所 占 的 位 置 与 包含 
的 百分比 如 表 7.2 所 示 。 


表 7.2 标准 九 分 与 正 态 分 布 的 对 应 关系 


变 积 
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20% 
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如 果 原 始 分 数 分 布 不 是 正 态 的 ， 只 要 将 原始 分 数 转换 成 为 
百 分 等 级 就 可 以 很 容易 的 从 表 7.2 中 求 得 被 试 的 标准 九 分 数 。 
登 如 ， 某 被 试 的 原始 分 数 在 团体 中 处 于 第 75 百 分 等 级 ， 则 由 
胡 7.2 可 推 知 该 被 试 的 标准 九 分 为 6 分 。 
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六 、 几 种 导出 分 数 间 的 相互 关系 


在 教育 与 心理 测量 中 ， 由 于 被 试 群体 较 大 ， 所 测 特质 的 得 
分 分 布 形态 一 般 都 能 保持 正 态 或 近似 正 态 。 在 正 态 分 布下 ， 各 
种 导出 分 数 之 间 的 关系 如 图 7.2 所 示 。 





Py it 1%0 I 
二 浴 九 分 娄 4% ?7% 12% 17% 20% 17% 12% ke 1% 

1 2 3 1 6 9 
自分 等 轰 


1 10 20 3 40m5070 m0 


7.2 常用 导出 数 的 对 应 关 系 
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第 二 节 ”分 数 合 成 
一 、 分 数 合成 的 意义 


(一 ) 分 数 合成 的 种 类 

前 面 所 介绍 的 分 数 转 换 ， 通 常 都 是 对 一 个 测验 的 分 数 而 言 
的 。 实 践 中 只 处 理 单一 测验 分 数 的 情况 很 少 ， 常 常 需要 将 几 个 
分 数 或 几 个 预测 源 组 合 起 来 ， 以 获得 一 个 合成 分 数 或 作 总 的 预 
测 。 例 如 ， 高 等 学 校 录取 新 生 ， 不 仅 需 根据 多 科学 业 成 绩 的 得 
分 情况 ， 还 要 结合 思想 表现 与 体 检 结果 等 多 方面 测验 结果 进行 
整合 ， 择 优 录取 ， 择 优 的 标准 事实 上 就 是 将 多 方面 得 分 合成 后 
所 得 的 结果 。 我 们 常 各 到 的 组 合 有 3 种 类 型 : 由 基本 测验 项 目 
组 成 一 个 分 测验 或 一 个 测验 ; 由 几 个 分 测验 上 的 得 分 组 成 合成 
分 数 ; 由 风 个 测验 的 得 分 组 合 ， 获 得 合成 分 数 或 合成 预测 。 

(1) 项 目的 组 合 。 每 个 测验 是 由 许多 独立 的 项 目 所 组 成 。 
这 些 项 目 可 以 结合 成 小 组 ， 各 小 组 的 项 目 可 以 独立 组 合成 量 表 
或 分 测验 ， 也 有 直接 将 所 有 项 目 得 分 合成 一 个 测验 总 分 的 。 在 
这 种 情况 下 ， 总 分 均 为 个 别 项 目 得 分 的 合成 分 数 。 虽 然 大 部 分 
的 分 数 是 对 所 有 项 目 等 量 加 权 而 得 到 的 合成 体 ， 但 个 别 题目 也 
可 以 作 不 等 量 加 权 。 不 论 是 否 采用 加 权 方 法 ， 除 非 测验 使 用 者 
对 个 别 项 目 具有 特殊 兴趣 ， 和 否则 通常 均 要 把 各 个 项 目 分 数 合成 
以 得 到 测验 总 分 。 

{2) 分 测验 或 量 表 的 组 合 。 有 些 测验 是 由 几 个 分 测验 或 分 
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量 表 所 组 成 ， 每 个 分 量 表 均 有 个 分 数 ， 这 些 分 数 可 以 组 合 到 一 
起 得 到 一 个 合成 分 数 〈 当 然 有 时 也 可 以 不 这 样 做 )。 例 如 韦 克 
斯 勒 成 人 智力 重 表 由 言语 量 表 与 操作 量 表 两 部 分 构成 ， 而 言语 
部 分 包括 6 个 分 测验 ， 其 合成 分 数 叫 作 言语 智商 ,操作 部 分 包 
括 5 个 分 测验 ， 合 成 分 数 为 操作 智商 ， 还 可 以 将 11 个 分 测验 
总 合成 而 得 到 总 智商 。 

(3) 测验 或 预测 源 的 组 合 。 在 作 实 际 决定 时 ， 常 常 将 几 个 
测验 或 预测 源 同时 使 用 。 如 前 面 所 提 的 大 学 录取 新 生 ，、 即 是 将 
各 科 测 验 分 数 与 其 他 成 绩 合成 后 作为 录取 依据 的 。 又 如 美国 雇 
佣 服 务 中 心 ， 对 申请 者 实施 几 个 测验 ,测量 9 个 因素 ， 用 来 预 
测 在 各 种 职业 上 的 成 功 。 以 上 两 例 ， 均 是 测验 使 用 者 为 了 作出 
决定 而 将 测验 分 数 进行 某 种 组 合 的 。 


(二 ) 分 数 合 成 中 的 问题 

每 当 将 测验 分 数组 合 时 ， 必 须 考虑 以 下 3 个 问题 : 

(1) 采用 什么 方法 来 合成 分 数 ? 考虑 该 问题 主要 取决 于 组 
成 测验 分 数 的 目的 与 要 作 何 种 决定 。 如 果 分 数 合成 后 根本 不 能 
为 实现 测验 目的 服务 ， 就 没有 合成 的 价值 。 另 外 ， 测 验 所 测 特 
质 间 能 和 否 彼 此 替代 ， 测 验 所 获 资 料 的 性 质 以 及 整个 工作 的 效率 
与 效益 如 何 ， 都 对 测验 分 数 合成 方法 的 确定 有 一 定 的 影响 ， 我 
们 和 需 考 虚 到 这 些 因 素 ， 以 便 选用 科学 、 有 效 、 经 济 的 方法 。 

(2) 什么 形式 是 最 适当 的 分 数组 合 ? 这 个 问题 基本 上 是 效 
广 问 题 。 一 般 而 言 ， 我 们 只 对 能 产生 最 高 效 标 效 度 的 测验 组 合 
感 兴趣 ， 所 以 ， 可 用 效 标 效 度 来 评价 合成 分 数 。 但 是 ， 如 果 在 
效 标 效 度 不 是 我 们 最 关心 的 问题 的 情况 下 ， 也 可 用 其 他 标准 来 
评价 。 

(3) 需要 多 少 及 何 种 测验 分 数 作 最 适当 的 组 合 分 数 ? 组 合 
分 数 时 ， 使 用 的 测验 分 数 的 种 数 即 测验 的 个 数 并 不 是 越 多 越 
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好 。 假 如 使 用 3 个 测验 组 合成 的 分 数 与 使 用 6 个 测验 组 合成 的 
分 数 的 效果 大 体 相 当 ， 我 们 自然 是 只 使 用 3 个 测验 。 通 常 当 将 
测验 组 合 ， 用 来 预测 一 个 效 标 时 ， 以 最 好 的 一 个 预测 源 开始 ， 
然后 再 添加 预测 涯 ， 直 到 组 合 分 数 的 效 庶 不 再 增加 为 止 。 若 一 
个 测验 加 入 测验 组 合体 而 没有 使 效 度 增加 ， 则 表示 该 测验 并 没 
有 提供 任何 新 的 信息 ， 就 不 必 增 加 。 


二 、 分 数 合成 的 方法 


在 讨论 各 种 分 数 合成 方法 时 ， 将 不 区 分 是 组 合 各 个 项 目 分 
数 、 分 测验 分 数 或 测验 分 数 ， 因 为 不 论 以 何 种 单位 分 析 ， 其 原 
理 是 一 致 的 。 

由 于 测量 目的 和 所 用 资料 不 同 ， 组 合 方法 既 可 以 是 统计 
的 ， 也 可 以 是 推理 或 直觉 的 。 


《一 ) 临床 诊断 一 一 音 觉 合成 

在 实际 工作 中 ， 最 常用 的 组 合 测验 分 数 的 方法 是 根据 经 验 
对 测验 分 数 作 直觉 的 组 合 ， 这 就 好 比 临 床 医生 ， 把 各 种 化 验 、 
检验 所 获得 的 资料 与 实际 观察 所 得 的 结果 结合 起 来 ， 根 据 经 验 
作出 诊断 一 样 。 与 此 相似 ， 一 个 教师 或 家 长 在 帮助 学 生 填 报 高 
考 志 愿 、 选 择 大 学 和 学 业 时 ， 根 据 该 生 的 平时 成 绩 、 高 考 各 科 
鸽 分 、 兴 趣 爱 好 、 专 长 性 格 及 招生 情况 等 各 种 因素 ， 全 面 分 析 
并 作出 判断 。 像 这 种 根据 直觉 的 经 验 ， 主 观 地 将 各 种 因素 加 
权 ， 而 获得 结论 或 预测 的 方法 叶 作 临床 诊断 。 

临床 诊断 法 的 优点 是 : 具有 高 度 的 综合 性 。 它 允许 我 们 
”从 整体 上 来 考虑 问题 ， 充 分 考 上 处 各 测验 所 测 特质 间 交 互 影响 ， 
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各 测验 上 所 得 分 数 的 对 比 关 系 与 组 合 类 型 的 结构 特点 ,测验 分 
数 与 实际 反应 表现 其 中 的 生动 关系 等 。 四 具有 灵活 的 针对 性 ， 
能 就 特定 的 个 人 作 具 笨 的 结论 。 而 一 般 的 统计 方法 具有 常 模 
性 ， 常 模 性 的 统计 模式 难于 适应 每 个 个 体 所 具有 的 独特 性 ， 更 
难于 适应 非典 型 的 新 颖 形式 。 

临床 诊断 法 的 缺点 是 : @@ 主 观 加 权 易 受 决策 者 的 偏见 影 
响 , 不够 客观 。 四 缺乏 精确 的 数量 分 析 ， 没 有 精确 的 数量 
指标 。 


《二 》 加 权 求 和 合成 

如 果 各 个 测验 所 测 特质 间 有 相互 代 偿 作用 ， 这 些 测验 上 的 
分 数 又 是 连续 性 资料 ， 并 能 大 体 同 时 获得 (如 学 生 各 种 考试 成 
绩 )， 那么 可 以 采用 加 权 求 和 的 立法 对 分 数 进行 合成 。 

最 简单 的 加 权 方法 为 单位 加 权 ， 就 是 将 各 个 测验 分 数 直 接 
相 加 而 获得 合成 分 数 。 
即 X.=X +X +-…+Xn (7.9) 

式 中 Xe 为 合成 分 数 ，XIi …Xn 为 各 分 测验 分 数 ， 以 往 高 考 
总 分 就 是 采用 这 种 方法 将 各 科 分 数 作 单 位 加 权 而 获得 的 。 

虽然 《7.9) 式 看 起 来 好 像 对 所 有 变量 作 了 等 量 加 权 ， 事 
实 上 ， 这 方法 是 根据 每 个 变数 与 它 的 标准 差 成 比例 的 加 权 ， 即 
将 变异 重 最 大 的 测验 作 最 重 的 加 权 。 假 如 想 将 变量 作 等 量 如 
权 ， 可 以 将 所 有 测验 分 数 转换 为 标准 分 数 ， 然 后 采用 下 式 加 权 
组 合 。 

Z.=Zi+Z2+…+Z。 (7.10) 

式 中 ，Z。 为 合成 的 标准 分 数 ，ZI，Z…2Z, 为 各 分 测验 的 
标准 分 数 。{(7.10) 式 适 合 于 各 测验 对 预测 效 标 具 有 同等 重要 
性 的 场合 。 但 在 通常 情况 下 ， 各 个 变数 对 预测 效 标 的 作用 是 不 
同 的 。 因 此 ， 需 要 根据 各 个 变数 与 效 标 之 间 的 经 验 关 系 作 盖 异 
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加 权 。 其 通 式 为 ， 
Ze = WIZ + 而 2Z2 + "+ WoZn (7.11) 
式 中 ZZ， 媚 ，…，Z。 同 (7.10) 式 ，W， 丈 2… WW。 是 加 
权 系 数 。 
加 权 系数 的 确定 比较 复杂 ， 通 常 采用 的 方法 有 : 中 抽象 推 
理 ， 从 某 些 理 论 要 求 出 发 加 以 推定 。@@ 使 用 统计 学 方法 ， 常 用 
主 成 分 分 析 的 第 一 主 成 分 作 权 数 ， 读 者 可 参考 有 关 统 计 著作 。 


(三 ) 多 重 回归 

采用 加 权 合 成 所 得 到 的 分 数 ， 是 各 个 分 测验 分 数 的 综合 
值 ， 但 在 很 多 情况 下 ， 需 要 利用 测验 结果 对 预测 效 标 作出 估 
计 。 例 如 ， 根 据 高 考 各 科 成 绩 预 测 在 大 学 一 年 级 末 的 学 业 成 绩 
等 。 此 时 ， 涡 对 测验 结果 和 效 标 测 重 作 多 重 回 妇 分 析 ， 求 出 效 
标 估计 与 预测 变量 之 间 的 数量 关系 式 。 

多 重 回 归 就 是 研究 一 种 事物 或 现象 与 其 他 多 种 事物 或 现象 
在 数量 上 相互 联系 和 相互 制约 的 统计 方法 ， 基 本 方程 式 为 : 

立 =a+btxi +bzxz+…+boxn (7.12) 


式 中 说 为 预测 效 标 分 数 ; x1，x2，…，x。 为 各 个 预测 源 分 数 ; 
b,…b, 为 每 个 预测 源 的 加 权 数 ; a 为 一 常数 ， 用 来 校正 预测 源 
与 效 标 平 均 数 的 差异 。 


多 重 回归 分 析 的 输入 资料 为 预测 源 与 效 标的 平均 数 与 标准 
差 ， 以 及 所 有 变量 间 相 关 的 相关 距 阵 。 分 析 过 程 包括 解 一 系列 
的 联 立方 程式 。 通 过 对 预测 源 作 适 当 的 加 权 而 使 这 些 加 权 的 测 
验 分 数 的 合 或 能 以 最 小 的 误差 来 预测 效 标 分 数 ， 这 些 都 必须 通 
过 电子 计算 机 进行 。 输 出 的 结果 主要 有 两 项 : 外 回归 方程 式 以 
指出 各 个 预测 源 的 加 权重 。 人 @@ 复 相关 系数 Ri 表示 预测 源 ( 当 作 
一 个 合成 体 ) 与 效 标 测量 间 的 相关 。R? 为 决定 系数 ， 表 示 效 标 
中 的 变异 数 可 由 预测 源 来 解释 的 比例 。 多 重 回归 的 计算 原理 读 
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者 可 参考 有 关 统 计 学 著作 。 

从 理论 上 说 ， 可 以 用 任何 数目 的 变量 来 作为 预测 源 。 但 在 
实际 分 析 时 ， 则 首先 用 最 佳 的 预测 源 ， 即 选 出 与 效 标 相 关 最 高 
的 变量 ， 然 后 加 入 另 一 预测 源 组 合 起 来 以 使 R 的 数值 增 至 最 
大 ， 于 一 个 要 加 入 的 预测 源 应 该 是 与 前 两 个 预测 源 组 合 起 来 能 
使 R 值 增 加 最 多 的 ， 依 次 类 推 ， 当 加 入 额外 的 预测 源 不 再 显 
著 地 使 相关 系数 R 值 增加 时 ， 则 终止 分 析 。 在 实际 应 用 中 ， 
一 般 二 至 四 个 预测 源 就 足以 达到 最 高 的 预测 正确 性 。 但 是 在 具 
体 应 用 时 ， 应 注意 到 多 重 回归 方法 所 采用 的 是 统计 线性 模型 ， 
所 以 只 有 当 预 测 源 与 效 标 间 存 在 线性 关系 时 才 是 适合 的 。 同 时 
还 要 求 预测 源 分 数 跟 效 标 分 数 能 够 同时 到 得， 并 且 都 是 连续 性 
资料 ， 若 这 些 条 件 不 能 满足 ， 就 不 宜 于 采用 多 重 回 归 分 析 而 应 
用 其 他 方法 。 


(四 ) 多 重 划 分 

用 多 元 回归 分 析 组 合 分 数 ， 适 合 于 所 测 特质 具有 某 种 程度 
的 互 偿 性 。 例 如 高 考 中 ， 某 人 某 门 功课 较 差 ， 但 可 以 通过 其 他 
几 门 获得 高 分 而 弥补 缺失 ,使 之 可 以 录取 。 但 实际 生活 中 ， 有 
些 所 测 特质 之 间 是 不 能 互相 补偿 的 ， 例 如 招收 飞行 员 的 鱼 选 ， 
其 中 任何 一 项 检测 不 合格 者 都 不 能 录取 。 多 重 划分 就 是 在 各 个 
特质 上 都 确定 一 个 标准 ， 从 而 把 成 绩 划 分 为 合格 与 不 合格 两 
类 。 在 一 个 测验 上 合格 了 ， 不 能 保证 总 的 要 求 一 定 能 合格 。 只 
有 每 个 测验 都 合格 时 ， 总 要 求 才 算 合格 。 如 果 有 个 人 几乎 在 前 
面 所 有 的 测验 上 得 出 奇 的 高 分 ， 但 在 接 下 来 的 一 次 测验 中 得 分 
低 于 规定 的 分 数 线 时 ， 他 同样 要 被 删 掉 。 所 以 在 整个 测验 实施 
时 ,是 把 所 有 组 成 这 一 测验 的 分 测验 按 一 定 顺 序 排列 起 来 逐一 
实施 。 只 有 通过 了 前 一 次 测验 ,才能 继续 实施 后 一 个 测验 。 当 
有 一 个 测验 的 成 绩 被 断定 为 不 合格 时 ， 测 验 即 停止 ， 被 试 被 视 
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为 不 合格 而 予以 淘汰 。 所 以 被 试 要 想得到 完全 合格 的 结果 ， 就 
必须 使 各 个 测验 的 分 数 均 达 到 规定 的 分 数 。 由 于 成 功 的 被 试 必 
须 越过 一 连 目 测验 的 杨 栏 ， 所 以 这 种 方法 也 叫 作 “连续 栅栏 ”。 

采用 多 重 划分 的 方法 组 合 分 数 时 ， 应 该 将 最 有 效 的 预测 源 
或 测验 放 在 前 面 ， 紧 接着 为 第 二 个 有 效 的 测验 ， 如 此 类 推 。 这 
样 就 能 保证 整个 逐步 淘汰 过 程 具有 最 优良 的 选择 效率 。 

采用 多 重 划 分 方法 ， 只 决定 接受 或 拒绝 ， 每 个 被 试 只 可 放 
在 其 中 -- 类 别 : 达到 最 低 标准 与 没有 达到 最 低 标准 。 因 此 ， 在 
通过 连续 栅栏 选择 的 被 试 之 中 ， 相 互 之 间 没 有 优 劣 之 分 ， 他 们 
之 间 的 差异 被 忽视 了 ， 若 想 区 分 他 们 之 间 水 平 的 差异 ， 必 须 用 
其 他 方法 。 

以 上 介绍 的 几 种 常用 的 分 数组 合 方法 ， 在 实际 运用 时 ， 应 
注意 合成 方法 的 适用 范围 ， 合 理 使 用 。 必 要 时 ， 应 将 几 种 方法 
结合 起 来 ， 并 考虑 到 有 关 实 际 情况 ， 寻 求 效果 最 佳 旦 经 济 实惠 
的 合成 方案 。 


第 三 节 ” 常 模 编 制 


本 章 开 头 已 指出 ， 常 模 是 根据 标准 化 样本 的 测验 分 数 经 过 
统计 处 理 而 建立 起 来 的 具有 参照 点 和 单位 的 测验 量 表 。 在 这 个 
量 表 上 ， 被 试 可 根据 自己 的 测验 分 数 找到 自己 在 团体 中 所 处 的 
地 位 。 编 制 常 模 需 要 三 步 : 确定 有 关 的 比较 团体 。@@ 获 得 该 
团体 成 员 的 测验 分 数 。@ 把 原始 分 数 转化 为 重 表 分 数 。 
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一 、 常 模 国 体 与 常 模 


1. 常 模 团 体 

常 模 团体 是 由 具有 某 种 共同 特征 的 人 所 组 成 的 一 个 群体 ， 
或 是 该 群体 的 一 个 样本 。 

由 于 个 人 相对 等 级 随 着 用 和 作 比 较 的 常 模 团 体 的 不 同 而 有 很 
大 的 变化 ， 所 以 任何 一 个 测验 可 能 有 许多 常 模 团体 。 故 在 制定 
常 模 时 ， 首 先 确 定常 模 团体 ; 在 作 常 模 参 照 分 数 的 解释 时 ， 也 
必须 首先 就 考虑 到 常 模 团 体 的 组 成 。 

从 测验 的 编制 者 来 说 ， 确 定常 模 团 体 的 问题 ， 变 成 确定 所 
编制 的 测验 将 来 用 于 什么 总 体 ， 所 选 定 的 常 模 团体 必须 能 够 代 
表 该 总 体 。 例 如 ， 测 验 是 设计 来 评价 高 中 毕业 生 的 学 业 成 就 
的 ， 则 常 模 团 体 应 包括 全 体高 中 毕业 生 ， 或 是 能 足够 代表 该 总 
体 的 一 个 样本 。 由 于 大 部 分 的 测验 要 用 于 各 种 不 同 团体 ， 所 以 
大 部 分 测验 都 有 不 正 一 个 常 模 团 体 。 如 瑞 文 标准 推理 测验 ， 常 
模 团 体 就 有 上 儿童、 成人、 城市 、 农 村 等 多 个 。 对 测验 的 使 用 
者 ， 要 从 不 同 角 度 来 选 定常 模 ， 首 先 要 考虑 的 问题 是 现 有 的 常 
模 团 笨 包 一 个 最 适合 ? 因为 标准 化 测验 通常 提供 许多 原始 分 数 
与 各 种 常 模 团 体 的 比较 转换 表 ， 被 试 的 分 数 必须 与 最 合适 的 常 
模 比 较 。 | 

无 论 是 测验 编制 者 还 是 测验 使 用 者 ， 所 关心 的 主要 问题 仍 
然 是 常 模 团 体 的 成 员 。 对 于 成 就 测验 和 能 力 倾向 测验 ， 适 当 的 
常 模 团体 通常 包括 目前 与 潜在 的 竞争 者 ;比较 广泛 的 能 力 与 性 
格 测验 ， 常 模 团 体 通 常 包括 具有 同样 年 龄 或 教育 水 平 的 人 。 当 
然 ， 在 一 些 特殊 情况 下 ， 还 有 许多 方面 也 可 用 来 定义 常 模 团 
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体 ， 如 性 别 、 年 龄 、 年 级 或 教育 水 平 、 职 业 、 社 会 经 济 地 位 、 
民族 等 。 

2. 确定 常 模 团 体 的 注意 事项 

{1) 群体 构成 的 界限 必须 明确 。 在 确定 常 模 团体 时 ， 必 须 
清楚 地 说 明 所 要 测量 的 群体 的 性 质 与 特征 。 虽 然 有 关 常 模 团 体 
的 一 般 规定 取 次 于 测验 的 目的 与 使 用 ， 且 可 能 有 多 个 常 模 团 
体 。 但 对 每 个 常 模 团体 的 性 质 和 特征 必须 有 一 个 简短 而 明确 的 
描述 ， 车 群体 过 大 ， 群 体内 部 也 许 有 许多 小 团体 ， 它 们 在 一 个 
测验 上 的 表现 也 时 常 有 差异 ， 假 如 这 种 差异 较为 显著 ， 就 必须 
对 每 个 小 团体 分 别 建 立 常 模 。 例 如 ， 艾 森 克 个 性 预测 (EPQ)， 
就 是 分 性 别 ， 以 不 同年 龄 组 而 建立 常 模 的 。 

《2) 常 模范 体 必须 是 所 测 群 体 的 一 个 代表 性 样本 。 当 所 要 
测量 的 群体 较 小 时 ， 将 所 有 的 被 试 逐个 测量 以 得 到 常 横 。 在 群 
体 较 大 时 ， 则 不 可 能 如 此 ， 只 能 测量 一 部 分 被 试 作为 群体 的 代 
表 ， 此 时 就 存在 取样 是 否 具 有 代表 性 的 问题 。 如 果 常 模 团 体 缺 
乏 代 表 性 ， 将 会 使 常 模 资 料 产 生 偏差 ， 从 而 影响 到 测验 结果 解 
释 的 准确 性 。 为 了 克服 取样 偏差 ， 保 证 具有 代表 性 ,一般 在 抽 
样 时 应 遵循 随机 化 说 则 ， 采 用 统计 学 的 方法 抽取 样本 。 关 于 具 
体 抽样 方法 ， 可 参阅 有 关 统 计 学 著作 中 的 抽样 推断 部 分 。 

(3) 取样 的 过 程 必须 明确 且 有 详尽 的 描述 。 这 主要 是 为 了 
使 测验 的 使 用 者 不 至 于 误 用 测验 和 错误 地 解释 测验 结果 ， 所 以 
在 一 般 的 测验 手册 中 ， 都 有 相当 的 篇 幅 详 细 介绍 常 寞 困 体 的 大 
小 、 取 样 策略 、 取 样 时 间 以 及 其 他 有 关 情 况 。 这 些 说 明和 和 描述 
越 明确 、 越 详尽 越 好 。 

(4) 样本 大 小 要 适当 。 所 谓 “ 大 小 适当 ”并 没有 明确 的 指 
标 。 根 据 统计 学 原理 ， 取 祥 误 差 与 样本 大 小 成 反比 。 所 以 ， 在 
其 他 条 件 相 同时 ， 样 本 越 大 越 好 。 但 是 还 应 考虑 到 人 力 、 物 力 
等 方面 的 因素 ,通常 在 决定 样本 大 小 时 ， 应 注意 : 中 总 体 的 数 
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目 。 总 体 数 此 小 ， 样 本 相应 可 小 一 些 ， 但 不 应 过 小 ， 若 总 体 过 
小 ， 则 可 将 全 部 被 坛 入选 ， 当 总 体 较 大 时 ， 机 应 的 样本 也 大 。 
四 群体 的 性 质 ， 如 果 群 体 性 质 单一 ， 则 样本 不 必 太 大 ， 即 可 以 
反映 群体 性 质 ; 若 群体 性 质 复杂 ， 则 样本 容量 (n) 就 应 大 -- 些 。 
图 测验 结果 的 精确 度 。 根 据 统计 学 原理 ， 抽 样 误差 的 大 小 与 样 
本 容量 成 反比 ,， 若 要 提高 精确 度 ， 即 是 说 减低 抽样 误差 ， 就 必 
须 加 大 样本 容量 (n )。 

(5) 常 模 团 体 必须 是 近 时 的 。 由 于 当今 教育 发 展 迅速 ， 上 所 
pass wa ol 

， 一 个 常 模 不 能 一 劳 永 逸 地 使 用 。 例 如 对 瑞 文 智力 测验 来 
二 le dite Mit 否则 所 得 
智商 将 产生 偏 高 的 趋势 。 

(6) 注意 一 般 常 模 与 特殊 常 模 的 结合 。 测 验 手册 上 所 列 的 
常 模 通常 为 一 般 常 模 ， 它 的 适用 范围 比较 广 。 有 时 对 于 某 些 特 
殊 的 群体 不 一 定 完全 适用 。 因 此 ， 测 验 在 希望 使 用 更 为 上 基体 
的 、 适 合 特殊 情况 的 常 模 。 即 特殊 常 模 。 将 特殊 常 模 与 一 般 常 
模 结合 起 来 ， 可 使 被 试 与 最 接近 的 群体 进行 比较 。 因 为 各 个 其 
体 群 体 在 某 些 方面 是 独特 的 ， 它 的 成 员 将 与 测验 手册 所 列 的 党 
模 团 体 成 员 不 符 。 所 以 ,依据 一 般 常 模 解 释 所 得 的 结论 可 能 不 
够 答 当 ， 如 果 将 两 者 结合 使 用 ， 解 释 分 数 便 会 更 加 准确 。 但 特 
殊 常 模 只 提供 有 关 特 殊 信 息 ， 适 用 范围 较 窗 。 所 得 结论 不 能 在 
广泛 的 背景 作 解释 。 


,二 、 制 定常 模 的 过 程 


{1) 确定 测验 将 用 于 哪 一 个 群体 。 根 据 测 验 群 体 ， 选 定 最 
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基本 的 统计 有 量 ， 决 定 抽样 误差 的 允许 界限 ， 在 此 基础 上 设计 具 
体 的 抽样 方法 ， 并 对 该 群体 进行 抽样 ， 得 到 常 模 团体 ， 

(2) 对 常 模 辕 体 进行 施 测 ， 并 获得 团体 成 员 的 测验 分 数 太 
-分 数 分 布 。 

(3) 确定 常 模 分 数 类 型 ， 制 作 常 模 分 数 转换 表 ， 即 常 模 节 
表 ， 同 时 给 出 抽取 常 模 团体 的 书面 说 明 ， 以 及 常 模 分 数 的 解释 
指南 等 。 


三 、 几 种 主要 的 常 模 参照 分 数 


(一) 发 展 重 表 

人 的 许多 心理 特质 ， 如 智力 、 技 能 等 ， 是 随时 间 而 发 展 
的 ， 所 以 可 以 将 个 人 的 成 绩 与 各 种 发 展 水 平 的 人 的 平均 成 绩 相 
比较 ， 制 定 出 发 展 量 表 。 在 这 种 量 表 中 ， 明 确 指出 个 人 在 按 正 
常 途 径 发 展 的 心理 特征 处 在 什么 大 的 发 展 水 平 。 

1. 心理 年 岭 

比 内 在 本 世纪 初 认为 : 测量 儿童 心理 成 长 ， 可 以 将 一 个 儿 
童 的 行为 与 各 年 龄 水 平 的 儿童 比较 ， 以 获得 该 儿童 的 心理 发 展 
水 平 。 在 此 设想 基础 上 ， 他 首先 寻找 并 设计 出 可 区 分 各 年 龄 儿 
童 智力 的 题目 ， 因 为 儿童 在 这 些 题目 上 的 反应 ， 随 着 年 龄 的 变 
化 而 有 系统 的 改变 。 每 个 题目 放 在 大 部 分 的 儿童 都 能 成 功 地 完 
成 的 那个 年 龄 水 平 。 例 如 大 部 分 8 岁 儿 童 都 能 通过 ， 且 有 大 部 
分 7 岁 儿 童 不 会 的 题目 ， 就 代表 8 岁 儿 童 的 智力 水 平 。 将 该 题 
放 在 8 岁 的 水 平 内 。 就 每 个 年 龄 水 平 制定 适当 的 题目 ， 可 以 得 
到 一 个 可 评价 儿童 智力 发 展 水 平 的 年 龄 量 表 。 一 个 儿童 在 年 龄 
量 表 上 所 得 的 分 数 ， 就 是 最 能 代表 他 的 智力 水 平 的 年 龄 ， 这 样 
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的 分 数 就 称 作 智 力 年 龄 ， 简 称 智 龄 。 所 有 的 年 龄 量 表 基 本 上 都 
是 利用 相同 的 推理 与 步骤 制定 的 ， 年 龄 量 表 将 个 人 的 行为 与 各 
年 龄 组 的 一 般 儿 童 比较 而 给 予 一 个 年 龄 分 数 。 例 如 ， 一 个 儿童 
能 正确 回答 一 般 10 岁 儿 童 的 题目 ,但 对 11 岁 的 大 部 分 题目 回 
答 不 出 ， 则 该 儿童 的 智 龄 为 10。 

有 些 测验 (如 团体 智力 测验 ) 没有 把 题目 分 到 各 个 年 齿 
组 。 此 时 ， 必 须 首 先 计 算 原始 分 数 ， 即 被 试 在 整个 测验 中 正确 
通过 的 题 数 或 完成 所 需 的 时 间 ， 标 准 比 样本 中 每 个 年 龄 组 的 平 
均 原始 分 数 就 作为 年 龄 常 模 。 将 被 试 的 原始 分 数 与 年 龄 常 模 对 
比 ， 便 可 求 得 他 〈 她 ) 的 智力 年 龄 。 如 果 某 个 儿童 的 原始 分 数 
等 于 8 岁 的 平均 分 数 ， 则 其 智 龄 便 是 8 岁 。 

因为 年 龄 量 表 最 基本 的 假设 是 所 测量 的 特质 瑚 年 龄 作 有 系 
统 的 改变 ， 所 以 ， 年 龄 量 表 的 基本 要 素 是 ，@ 一 组 可 区 分 不 同 
年 龄 组 的 题目 。@ 一 个 常 模 团体 。 该 团体 是 由 各 个 年 龄 的 被 试 
所 组 成 的 具有 代表 性 的 样本 。 国 常 模 表 ， 即 一 个 表明 答对 哪些 
题目 或 得 多 少 分 就 该 归 人 娜 个 年 龄 的 对 照 表 。 

年 龄 常 模 最 大 的 优点 是 易于 理解 与 解释 ， 并 可 以 与 同年 龄 
团体 作 直 接 比 较 ， 但 必须 注意 智商 的 单位 不 是 保持 便 定 的 ， 而 
是 随 着 年 龄 增长 而 缩小 的 。 例 如 在 3 岁 和 4 岁 之 间 的 差异 ， 就 
不 等 于 15 岁 与 16 岁 之 间 的 差异 ， 因 为 人 在 很 多 方面 发 展 的 速 
率 是 先 快 后 盆 ， 并 随 着 年 龄 增长 而 逐渐 减 慢 ， 当 长 到 青春 期 或 
成 年 期 ， 便 逐渐 停止 ， 所 以 对 于 这 部 分 被 试 ， 年 龄 常 模 便 不 再 
有 酝 何 意义 。 

2. 年 级 当量 

在 教育 成 就 测验 中 ， 分 数 的 解释 通常 也 采用 年 级 当量 。 即 
将 被 试 的 测验 成 绩 与 某 一 年 级 的 学 生 的 平均 分 数 作 比较 ， 而 说 
成 要 当 于 某 一 年 级 水 平 。 这 种 年 级 当量 选择 题目 与 指定 分 数 的 
方法 与 步骤 与 年 龄 常 模 类 似 ， 所 不 同 的 是 用 年 级 水 平 代替 了 年 
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龄 水 平 。 例 如 ， 一 个 学 生 如 果 能 解答 六 年 级 的 题目 或 他 (她 ) 
在 测验 上 的 得 分 与 六 年 级 的 平均 分 数 相同 ， 则 他 〈 她 ) 在 该 测 
验 上 的 年 级 当量 便 有 是 6。 如果 标准 化 样本 中 ， 四 年 级 学 生 在 算 
术 测 验 上 正确 解答 的 平均 题 数 是 25， 则 原始 分 数 25 的 年 级 当 
量 便 是 4。 

年 级 常 模 的 单位 通常 为 10 个 月 间隔 。 在 一 学 年 中 ,假设 
有 两 个 月 的 假期 ， 在 所 测量 目标 上 的 发 展 是 不 重要 的 。 所 以 年 
级 当量 是 5.0， 便 表示 是 五 年 级 的 初始 水 平 ，5.5 则 表示 五 年 
级 中 期 的 平均 成 绩 。 

年 级 当量 虽然 使 用 普遍 ， 但 它 也 有 一 些 缺 点 ; 仆 教 育 的 内 
容 在 各 个 年 级 上 是 不 相同 的 。 因 此 ， 年 级 常 模 只 适用 于 一 般 课 
程 ， 而 且 必 须 是 在 各 年 级 间 有 系统 改变 ， 不 适合 于 某 此 高 年 级 
只 学 1 ~2 年 的 课程 ; 并 且 各 年 级 的 内 容 、 教 学 速度 都 不 一 样 ， 
所 以 年 级 单位 是 不 相等 的 。 回 年 级 当量 的 解释 比较 困难 。 例 
如 ,一 个 教育 程度 较 高 而 又 聪明 的 五 年 级 学 生 在 标准 化 的 教学 
测验 中 获得 的 分 数 相当 于 七 年 级 ， 这 并 不 意味 车 他 已 掌握 了 初 
一 的 教学 内 容 ， 而 只 是 说 他 在 五 年 级 是 相当 优秀 的 ， 并 不 说 明 
凶 已 具备 进入 初 二 的 条 件 ; 而 另 一 个 初 二 学 生 获 7.9 分 ， 则 说 
明和 他 在 班 中 是 中 等 水 平 ， 前 后 两 个 学 生 实际 掌握 的 知识 并 不 相 
等 。 图 年 级 常 模 经 常 被 误 用 为 标准 。 例 如 ， 一 个 六 年 级 的 老师 
就 经 常 希望 他 班 上 的 全 体 学 生成 绩 接 近 或 达到 六 年 级 常 模 团体 
的 成 绩 。 这 种 情况 ,个 别 学 生 可 能 达到 ， 而 大 部 分 学 生 是 不 可 
能 达到 的 。 必 须 清楚 ， 常 模 与 标准 是 不 同 的 ， 标 准 常 指 所 希望 
达到 的 标准 ， 常 模 则 是 代表 群体 的 次 数 分 布 。 


(二 )》 商 数 
过 去 ， 曾 有 许多 人 企图 用 两 个 分 数 的 比率 来 制订 量 表 ， 最 
有 名 的 就 是 智商 。 智 商 最 初 就 被 定义 为 : 儿童 的 智力 商 数 等 于 
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智力 合 龄 与 实际 年 龄 的 比率 。 在 教育 测验 中 ， 有 时 也 采用 商 数 
来 表明 教育 发 展 或 成 就 的 速率 ， 常 见 到 的 有 教育 尚 数 与 成 就 
商 数 。 4 

1. 教育 商 数 

教育 商 数 (EQ) 与 智商 类 似 ， 它 是 教育 年 龄 (EA) 与 实 
际 年 龄 (CA) 之 比 。 其 公式 如 下 : 


教育 年 龄 -EA 
EQ= 实际 车 龄 *100 = CA x 100 {7,13) 


所 谓 教育 年龄 是 指 某 岁 儿童 所 取得 的 平均 教育 成 就 。 辟 如 
一 个 学 生 的 教龄 为 10 岁 ， 就 说 明 该 儿童 的 教育 成 就 与 :一般 10 
岁 儿 童 教育 成 就 相等 。 不 管 年 龄 的 大 小 ， 只 要 测验 上 所 得 的 分 
数 与 某 年 龄 平均 分 数 相等 ， 则 教龄 便 为 多 少 。 

教育 年 龄 可 以 由 年 级 当量 问 接 地 得 到 。 例 如 ， 一 个 学 生 在 
测验 上 所 得 的 分 数 相当 于 四 年 级 的 得 分 ， 而 由 年 级 学 生 的 众 数 
年 龄 为 10 岁 ， 则 该 被 试 的 教龄 便 是 10 岁 。 

教育 年 龄 与 教育 商 数 和 智 龄 与 智商 的 解释 类 似 ， 都 是 表示 
发 展 的 水 平 与 速率 的 。 但 以 教龄 作 单 位 ， 有 时 意义 不 明确 。 例 
如 某 人 的 某 科 教龄 是 零 岁 ， 很 可 能 是 他 未 曾 学 过 ， 也 可 能 是 已 
忘记 掉 了 。 再 则 有 些 学 科 到 高 年 级 才 并 设 , 而 低 和 后 级 并 不 开 
设 ， 此 时 使 用 教育 年 龄 作为 单位 会 发 生 混乱 。 

2. 成 就 商 数 

成 就 商 数 (AQ) 是 将 一 个 学 生 的 教育 成 就 与 他 智力 作 比 
较 ， 即 教育 年 龄 与 智力 年 龄 (MA) 之 比 : 


教龄 / 实 龄 ”教育 商 数 〈EOQ) 
AQ = 智 春 x 100 = 等 内 ^ 实 朴 x100= 智力 商 数 (1Q) x 100 


(7.14) 
因为 成 就 商 数 是 将 一 _ 个 学 生 的 教育 成 就 或 学 业 成 就 与 同等 
智力 的 学 生 作 比较 ， 所 以 它 不 仅 可 以 用 来 评价 学 生 的 努力 程 
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度 ， 也 可 以 用 来 评价 教师 的 教学 效果 与 质量 。 前 者 是 因为 智力 
与 学 业 成 就 二 者 不 等 价 ， 智 力 不 够 理想 ， 若 努力 刻苦 ， 仍 可 获 
得 好 的 学 业 成 就 ， 此 时 他 的 成 就 商 数 就 较 高 。 反 之 ， 成 就 商 数 
较 低 ， 说 明 该 生 不 够 努力 ， 所 获得 的 成 就 与 他 的 智力 不 相称 。 
对 后 者 ， 如 果 学 生 的 平均 教 零 低 于 智 龄 ， 说 明教 学 存在 问题 ， 
未 取得 应 有 的 效果 。 

但 是 使 用 成 就 商 数 来 评价 学 生 与 教师 也 存在 一 些 问题 。 首 
先是 智力 与 学 业 成 就 两 者 只 是 中 等 程度 的 相关 ， 智力 较 好 ， 且 
刻苦 努力 ， 并 不 是 就 一 定 能 获得 好 成 就 。 因 为 学 绩 测验 与 智力 
测验 所 测量 的 并 不 完全 是 一 个 东西 。 其 次 ， 到 目前 为 下， 任何 
一 种 智力 测量 都 不 能 保证 百分之百 的 可 靠 ， 教 育 测验 也 同样 如 
此 。 而 使 用 两 个 不 可 靠 的 分 数 的 比率 则 更 不 可 靠 。 虽 然 有 这 两 
点 缺陷 ,但 在 实际 教育 工作 中 成 就 商 数 还 是 有 一 定 的 用 途 的 ， 
因为 无 论 如 何 ， 低 的 成 就 商 数 是 学 生 与 教学 不 相 适 应 的 表现 ， 
应 该 寻找 原因 ， 了 予以 补救 。 当 然 ， 在 心理 测量 领域 使 用 得 更 多 
的 常 模 参 照 分 数 还 是 百 分 等 级 分 数 和 标准 分 数 及 其 转化 形式 ， 
这 两 种 分 数 已 在 第 一 节 中 作 过 讨论 ， 此 处 不 再 重复 。 


四 、 星 现 常 模 资料 的 方法 


呈现 常 模 的 方法 主要 有 两 种 : 转化 表 与 剖析 图 。 


【一 ) 转化 表 

转化 表 又 称 常 模 表 ， 是 一 种 最 简单 、 最 基本 且 最 常用 的 呈 
现 常 模 资料 的 方法 。 它 由 原始 分 数 、 相 应 的 导出 分 数 和 对 常 模 
团体 的 有 关 具 体 描 述 3 个 要 素 构 成 。 有 了 转化 表 ， 使 用 者 便 可 
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以 将 原始 分 数 转 换 为 导出 分 数 ， 或 从 所 给 的 导出 分 数 找到 相应 
的 原始 分 数 。 

常 模 表 有 简单 转化 表 与 复杂 转化 表 两 种 。 

1. 简单 转化 表 

简单 转化 表 是 将 单项 测验 的 厌 始 分 数 转换 为 一 种 或 见 种 导 
出 分 数 ， 如 表 7.3 所 示 。 


表 7.3 ACT 的 百 分 等 级 与 标准 分 数 





该 表 是 文学 院 女 新 生 在 ACT 的 合成 分 数 (原始 分 数 )， 百 
分 等 级 和 标准 分 数 (TT 分 数 ) 的 对 照 表 。 假 若 一 个 学 生 原 始 分 
数 为 27 分 ， 则 所 对 应 的 百 分 等 级 为 54，T 分 数 为 S2， 分 数 的 
意义 与 解释 与 本 章 第 一 节 中 的 说 明 完全 一 致 。 
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利用 转化 表 解 释 分 数 时 应 注意 : @ 只 能 将 分 数 与 表 中 所 描 
述 的 常 模 团 体 作 比 较 ， 要 和 其 他 常 模 团 体 比 较 ， 则 需 其 他 的 常 
神 表 。 人 名 在 没有 效 度 资料 时 ， 转 化 表 只 能 将 原始 分 数 转换 为 另 
一 种 分 数 ， 而 不 能 作 任 何 推 论 ， 即 使 有 效 度 资料 ， 效 标 行为 也 
只 是 从 常 模 资 料 推论 来 的 。 

2. 复杂 转化 表 

复杂 的 转化 表 是 将 包括 几 个 分 测验 ， 或 几 种 常 模 的 原始 分 
数 与 导出 分 数 的 对 应 关系 呈现 在 一 张 转化 表 上 ， 如 表 7.4 所 
示 。 表 7.4 为 几 个 分 测验 的 常 模 转化 表 。 从 表 中 可 以 看 出 ， 相 
局 的 原始 分 数 在 不 同 的 分 测验 上 的 百 分 等 级 不 同 ， 而 为 了 得 到 
各 分 测验 上 的 相同 的 百 分 等 级 ， 则 需要 有 不 同 的 原始 分 数 。 利 
用 此 表 ， 可 以 直接 比较 一 个 人 在 各 种 分 测验 上 的 成 绩 ， 但 要 注 
意 各 分 测验 的 资料 必须 来 自 同 一 个 常 模 团 体 ， 和 否则 就 不 能 直接 
比较 。 


表 7.4 大 学 生 戈 登 人 格 问卷 的 百 分 等 级 


关 书 | 独创 | 大 际 谨 壤 | 独创 | 人 际 
38 38 99 
37 99 37 99 | 98 














表 7.5 反映 的 是 不 同 的 被 试 团体 在 同一 个 测验 上 的 原始 分 
数 与 导出 分 数 的 对 应 关系 。 


胡 7.5 不 同 团体 的 荧 登 问卷 “谨慎 性 ”分 测验 常 模 转换 表 
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32 94 97 84 81 
31 91 95 78 75 
30 88 93 71 69 
29 84 90 63 62 
28 79 86 55 55 
27 74 82 48 47 
26 68 78 41 39 
25 62 73 34 31 
24 56 67 28 24 
23 50 61 23 18 
22 44 55 18 13 
21 38 49 14 9 
20 33 42 11 6 
19 29 36 9 4 
18 25 31 Eg 3 
17 21 26 6 2 
16 18 22 3 ] 
15 15 18 4 

14 12 14 3 

13 10 11 2 

12 8 9 1 

11 6 7 
-10 5 5 

9 4 4 

8 3 3 

7 2 2 

6 1 1 


利用 这 种 转化 表 解 释 分 数 ， 可 以 提供 两 方面 的 信息 : 一 方 
面 它 表示 出 不 同 团体 的 导出 分 数 ， 测验 使 用 者 可 以 将 一 个 人 的 
. 分 数 与 几 个 有 关 常 模 团 体 比 较 ; 另 一 方面 ， 它 允许 对 不 同 团体 
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作 比 较 。 但 在 解释 时 必须 注意 到 各 个 团体 的 测验 分 数 必 须 在 同 


样 的 捕 况 下 ， 即 条 件 一 致 时 获得 ， 和 否则 不 便 比 较 。 
育 语 测验 操 作 测 验 
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图 7.3 韦 庆 儿 童 智力 量 表 齐 析 图 示例 
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《二 ) 训 析 图 

剖析 图 是 把 一 套 测 验 中 几 个 分 测验 分 数 同 图 表 (图 形 ) 表 
示 出 来 。 从 剖析 图 上 可 以 很 直观 地 看 出 被 试 在 各 个 分 测验 上 的 
表现 及 其 相对 的 位 置 。 图 7.3 即 为 一 个 学 生 在 韦 氏 儿童 智力 量 
表 上 的 剖析 图 。 从 图 中 可 以 看 出 ， 该 生 总 的 智商 在 平均 以 上 ， 
其 中 言语 测验 智商 较 高 ， 操 作 测 验 一 般 ， 其 中 词汇 、 算 术 背 
数 、 积 木 等 较 好 。 

使 用 剖析 图 作 和 解释 ， 要 求 各 个 分 测验 所 使 用 的 必须 是 同一 
个 常 模 团 体 ， 否 则 无 法 进行 比较 。 


练习 与 思考 


1. 试 比较 各 种 导出 分 数 的 优 缺 点 。 

2. 列举 你 所 了 解 的 各 种 测验 的 分 数 合成 方法 ， 并 评价 它 
们 的 合理 性 。 

3. 选择 常 模 团体 与 制定 常 模 有 什么 关系 ?如何 选 择 好 常 
模 团体 ? 

4. 离 差 智 商 与 比率 智商 的 本 质 差异 是 什么 ? 
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的 编制 与 实施 
本 章 提要 : | 
@ 编 制 测验 的 基本 程序 
人 @ 测 验 的 实施 过 程 及 注意 事项 
和 @ 解 释 测验 分 数 的 类 型 与 基本 原则 


全 身受 测 者 报告 测验 分 数 的 基本 原则 
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任何 测 若 都 有 测量 工具 ， 心 理 与 教育 测 晤 的 工具 通常 叫 测 
验 〈(Test)。 进 行 测量 的 第 一 步 是 编制 测验 ,编制 出 一 个 好 的 
测验 ， 是 实现 心理 与 教育 测量 科学 性 的 基本 前 提 ， 同 时 只 有 正 
确 使 用 测验 ， 才 能 实现 一 个 好 的 测验 的 科学 功能 。 因 此 ， 本 章 
将 讨论 在 编制 和 使 用 测验 中 的 一 些 基 本 问题 ， 即 编制 测验 的 基 
本 程序 与 使 用 测验 的 若干 基本 原则 。 至 于 编制 各 种 特定 测验 的 
具体 技术 和 方法 ， 以 及 这 些 测验 的 实施 方法 ， 则 在 后 续 章 节 加 
以 讨论 。 


第 一 节 ”编制 心理 与 教育 测验 的 基本 程序 


不 同性 质 的 心理 与 教育 测验 ， 其 编制 方法 有 所 不 同 。 学 绩 
测验 的 编制 与 能 力 测验 的 编制 应 有 所 不 同 ， 能 力 测验 的 编制 与 
人 格 测验 的 编制 也 会 有 所 差异 。 但 不 管 编制 测验 的 具体 技术 、 
过 程 和 方法 有 多 大 差异 ， 其 基本 程序 一 致 。 总 的 来 说 ， 编 制 一 
个 可 供 使 用 的 标准 化 的 心理 与 教育 测验 ， 一 般 要 经 过 以 下 几 个 
步骤 : 全 确定 测验 目的 。 四 制定 编 题 计划 。 四 编辑 测验 项 目 。 
久 预 测 与 分 析 。@ 合 成 测验 。@ 测 验 标准 化 。 中 鉴定 测验 。@ 
编写 测验 说 明 书 。 下 面 分 别 进行 简要 讨论 。 


一 、 确 定 测验 目的 


在 这 一 步 主要 要 解决 3 个 问题 
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(一 ) 明确 测量 对 象 

明确 测量 对 象 ， 也 就 是 明确 测量 哪些 个 人 或 团体 。 通 常 以 
年 龄 、 性 别 、 职 业 、 受 教育 程度 、 经 济 状况 、 民 族 、 文 化 背景 
等 指标 来 区 分 测量 对 象 。 施用 于 不 同 对 象 的 测验 应 该 有 其 不 同 
的 特征 ， 而 不 应 千篇一律 。 


(二 ) 明确 测量 目标 

明确 测量 目标 ， 也 就 是 明确 测量 什么 心理 功能 ， 是 测 能 
力 、 人 格 ， 还 是 测 学 业 成 绩 。 不 仅 如 此 ， 还 要 进一步 把 目标 具 
栖 化 。 例 如 ， 若 要 测量 人 的 态度 ， 必 须 按照 态度 的 定义 分 为 认 
知 方 式 、 情 感 表达 和 行为 倾向 3 个 层面 ， 并 给 出 这 3 个 层面 的 
操作 性 定义 ， 然 后 按照 操作 性 定义 编制 测 题 。 若 要 测量 智力 
(一 般 能 力 ) ， 就 必须 把 智力 分 解 为 若干 因素 ， 并 具体 规定 各 种 
因素 的 意义 。 如 美国 心理 学 家 瑟 斯 顿 通过 因素 分 析 ， 将 智力 分 
解 为 7 个 基本 因素 : 

(1) 语文 理解 一 一 阅读 时 了 解 文 义 的 能 力 。 

(2) 词语 流畅 一 准确 迅速 拼 词 与 敏捷 联想 词义 的 能 力 。 

(3) 数学 运算 -一 准确 迅速 运用 数字 解答 数学 问题 的 
能 力 。 

(4) 空间 关系 一 一 准确 迅速 判断 空间 方向 与 空间 位 置 关系 
的 能 力 。 

(5) 机 械 记忆 一 一 对 事物 进行 强 记 的 能 力 。 

(6) 知觉 速度 一 一 准确 迅速 观察 和 识别 事物 的 能 力 。 

(7) 一 般 推理 一 一 根据 已 知 判 断 推出 未 知 判 断 的 能 力 。 

巷 斯 顿 根据 上 述 定义 和 分 析 ， 编 制 了 《基本 心理 能 力 测 
验 》(1941)。 把 目标 具体 化 ， 是 保证 测量 可 磋 狂 的 基本 条 件 。 
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《三 ) 明确 测量 用 途 

明确 注重 用 途 ， 也 就 是 明确 编制 的 测验 于 什么 用 ， 是 用 于 
描述 受 测 者 的 心理 特质 ， 还 是 用 于 诊断 心理 是 否 异 常 ， 是 用 于 
选拔 和 人员， 还 是 用 于 验证 某 个 理论 假设 。 用 途 不 同 ， 编 制 测验 
时 的 取材 范围 以 及 测 题 的 难度 也 不 尽 相同 。 


二 、 制 定编 题 计 划 


编 题 计划 是 编制 测验 的 总 体 构思 。 编 题 计 划 要 明确 的 信息 
主要 有 两 个 方面 ; 一 是 全 面 而 具 代 表 性 的 测验 内 容 ， 不 致使 测 
题 偏离 了 应 测 的 范围 ; 二 是 对 各 个 内 容 点 的 相对 重视 程度 ， 通 
常用 百分比 来 标明 。 

编 题 计划 主要 有 两 个 用 途 : 起 编 题 计划 指明 了 应 该 编 哪 些 
方面 的 测验 项 目 以 及 编 多 少 个 项 目 ， 因 此 ， 测 题 编制 结束 后 ， 
可 比照 计划 核对 测验 项 目 是 否 反 映 了 所 要 测量 的 领域 。@ 在 记 
分 时 可 按 计 划 中 百分比 确定 每 类 测验 项 目的 分 数 标准 。 


三 、 编 辑 测验 项 目 


在 编辑 测验 项 目 时 需要 解决 3 个 问题 : 
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(一 ) 收集 测验 资料 

一 个 测验 是 否 有 效 ， 取决 于 该 测验 是 否 能 够 测 得 研究 者 所 
要 测 得 的 东西 ， 为 此 ， 就 需要 收集 适当 的 测验 资料 。 尽 管 不 同 
性 质 的 测验 所 依据 的 资料 内 容 各 异 ， 但 都 必须 六 循 几 个 共同 的 
原则 : 

(1) 资料 要 丰富 。 资 料 收集 愈 齐全 ， 编 题 工作 鳃 顺利 。 无 
论 是 能 力 或 人 格 ， 均 是 十 分 复杂 的 复合 性 心理 结构 ， 不 能 仅 凭 
一 两 种 简单 的 项 目 去 推断 一 个 人 的 智 轴 或 人 格 特 征 ， 必 须 包含 
许多 不 同类 型 的 材料 。 例 如 ， 编 制 人 格 测验 ， 需 要 收集 描述 人 
格 特征 的 大 量词 汇 、 临 床 观察 的 资料 、 已 有 的 人 格 测验 量 表 中 
的 测 题 等 。 

(2) 资料 要 有 普遍 性 。 这 有 两 层 意思 ; 一 是 当 编制 智力 类 
测验 时 ， 所 收集 的 资料 对 于 不 同文 化 背景 、 不 同 经 济 地 位 、 不 
同 地 区 的 个 人 或 团体 应 当 是 公平 的 ， 应 尽 可 能 避免 特殊 知识 经 
验 对 测验 结果 的 影响 ;二 是 当 编制 人 格 测验 时 ， 所 收集 的 资料 
应 当 能 够 全 面 反映 某 一 文化 背景 中 的 团体 的 基本 人 格 特征 。 

(3) 资料 要 有 趣味 性 。 资 料 的 趣味 性 可 以 减少 受 测 者 由 于 
缺乏 足够 的 动机 而 引起 的 测量 误差 。 


《二 》 选择 项 目 形 式 

在 心理 测量 中 ， 必 须 将 测验 项 目 以 某 种 形式 呈现 给 受 测 
者 ,而 测验 项 目 呈 现 的 形式 又 取决 于 受 测 者 的 年 龄 、 人 数 的 多 
少 、 测 量 的 目的 、 测 验 项 目的 性 质 等 因素 。 因 此 ， 在 选择 测验 
项 目 形式 时 ， 应 当 注 意 将 这 些 因素 考虑 进去 。 例 如 ， 在 学 绩 测 
验 中 ， 如 果 要 考察 对 概念 和 原理 的 记忆 ， 宜 用 简 答 题 ; 要 考察 
综合 运用 知识 的 能 力 则 宜 用 论文 题 。 再 如 ， 在 智力 测验 中 ， 对 
干 幼 此 : 文言 或 识字 不 多 的 人 ， 宜 用 口头 测验 ;对 毒 哑 人 ,， 则 
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宜 用 操作 测验 ; 受 测 人 数 过 多 ， 且 时 间 、 财 力 有 限时 ， 宜 用 夯 
体 测 验 ， 而 在 受 测 人 数 较 少时 ， 可 用 个 别 测验 。 

对 于 测验 项 目的 确定 ,我 国 心理 学 家 廖 世 承 、 陈 准 琴 早 在 
几 十 年 前 曾 提 出 的 几 条 原则 现在 仍 可 供 参考 :使 受 测 者 容易 
明了 测验 方法 。 包 使 受 测 者 在 完成 测验 时 不 会 因 测验 项 目的 形 
式 不 当 而 作 错 。@ 测 验 过 程 省 时 。@ 计 分 省 时 省 力 。 回 经 济 。 





《三 ) 编写 测验 项 目 

编写 测验 项 目 是 一 个 反复 的 过 程 。 在 这 过 程 中 ,测验 项 目 
编制 者 需要 对 测验 项 目 进行 反复 修改 ， 其 中 包括 订正 意思 不 明 
殉 的 词语 ， 删 改 一 些 重复 和 不 适当 的 项 目 ， 增 加 有 用 的 题目 等 等 。 

在 编写 测验 项 目 时 要 注意 ， 

(1) 测验 项 目的 取样 应 当 对 和 欲 测 心理 品质 具有 代表 性 。 只 
有 测验 项 目 真实 反映 测量 对 象 的 特征 时 ， 才 能 保证 测验 结果 的 
有 效 性 。 

(2) 测验 项 目的 取材 范围 要 同 编 题 计划 所 列 项 目 范围 相 
一 致 。 

(3) 测验 项 目的 难度 应 有 一 定 的 分 布 范围 。 如 果 是 能 力 测 
验 或 学 业 成 就 测验 ， 就 应 当 包 括 各 种 不 同 难度 的 测验 项 目 ， 以 
鉴别 各 种 不 同 能 力 或 不 同 知识 水 平 的 人 员 ; 如 果 是 人 格 测 验 ， 
就 应 当选 编 那 些 在 不 同方 向 的 备 选 答案 上 都 有 一 定 人 数 分 布 的 
项 目 ， 以 鉴别 上 共有 不 同人 格 特征 的 人 员 。 

(4) 编写 测验 项 目的 用 语 要 力求 精炼 简短 ， 浅 显明 了 。 

(5) 初 编 题目 的 数量 要 多 于 最 终 所 需要 的 数量 ， 以 便 筛 选 
或 编制 复 本 。 

《6) 测验 项 目的 说 明 必 须 简明 。 
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四 、 预 测 与 项 目 分 析 


初 编 的 测验 项 目 是否 具 有 适当 的 难度 和 区 分 度 ， 必 须 通 过 
预测 进行 测验 项 目 分 析 ， 以 便 进一步 修改 。 


(一 ) 预测 

预测 的 目的 在 于 获得 被 试 对 注 验 项 目 做 何 反 应 的 资料 。 它 
既 能 提供 那些 题目 意义 不 清 、 容 易 引 起 误解 等 质 的 信息 ， 又 能 
提供 测验 项 目 优 劣 的 量 的 指标 。 

预测 应 注意 的 问题 是 ， 

(1) 预测 对 象 应 取 自 将 来 正式 测验 时 准备 施用 的 群体 ， 虽 
然 人 数 不 必 太 多 ， 但 要 具有 代表 性 。 

(2) 预测 的 情境 应 力求 同 正式 测验 的 情境 一 致 

(3》 预测 的 时 限 可 以 适当 延长 ， 以 便 每 一 受 测 者 都 能 将 题 
目 敌 完 。 

(4》 施 测 者 应 对 受 测 者 的 反应 加 以 记录 。 如 在 同一 时 限 
内 ， 受 测 者 所 完成 的 题 数 ， 以 及 受 测 者 反应 的 题 意 不 清 之 处 
等 ， 以 便 修 改 项 目 时 参考 。 


《二 ) 项 目 分 析 

测验 项 目 分 析 就 是 对 预测 结果 进行 统计 分 析 ， 确 定 项 目的 
难度 和 区 分 度 。 由 于 预测 的 受 测 者 样本 小 可 能 会 存在 取样 误 
差 ， 由 此 获得 的 项 目 分 析 结果 未 必 完 全 可 靠 。 所 以 ， 需 要 对 来 
自 同一 总 体 的 两 个 样本 施 测 ， 然 后 分 别 进 行 测验 项 目 分 析 ， 看 
对 两 个 样本 的 分 析 结 果 是 否 一 致 。 关 于 项 目 分 析 的 具体 原理 与 
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技术 问题 ， 请 参见 第 六 章 。 
五 、 会 成 测验 


合成 测验 就 是 把 经 过 预测 以 后 证 明 有 价值 的 项 目 排 成 有 组 
织 的 测验 。 它 要 解决 的 问题 是 两 个 ,一 是 测验 项 目的 选择 ; 二 
是 测验 项 目的 编排 。 如 要 编制 复 本 ， 还 须 懂得 怎样 编制 复 本 。 


(一 ) 测验 项 目的 选择 

选择 测验 项 目的 指标 有 三 : 一 是 测验 的 性 质 ， 即 要 选择 那 
些 能 够 测量 所 要 测量 的 东西 的 项 目 。 假 若 要 测量 的 是 语言 推理 
能 力 ， 就 不 能 选择 测量 阅读 能 力 或 运算 能 力 的 项 目 。 二 是 项 目 
的 难度 。 选 择 多 大 难度 的 项 目 并 无 固定 的 标准 ， 选 拔 性 测验 要 
求 难度 大 些 ， 考 察 性 测验 则 要 求 难度 不 可 太 高 ， 人 格 测 验 则 不 
要 求 难度 。 三 是 项 目的 区 分 度 。 一 般 来 说 ， 项 目的 区 分 度 越 高 
越 好 ， 对 于 选拔 性 测验 尤为 如 此 ， 但 有 时 也 可 以 保留 若干 区 分 
度 不 高 的 项 目 ， 这 要 视 项 目的 重要 性 而 定 。 


《二 ) 测验 项 目的 编排 

测验 项 目 选 出 之 后 ,需要 加 以 合理 安排 。 在 测验 开头 应 该 
有 一 、 两 个 较 容 易 的 项 目 ， 以 使 受 测 者 熟悉 作答 程序 ， 解 除 紧 
张 情结， 建立 信心 ， 较 快 进 和 测量 情境 。 对 测验 项 目的 总 的 编 
排 原则 是 要 由 易 到 难 ， 这 样 可 以 避免 受 测 者 在 难题 上 耽搁 时 间 
过 多 ， 而 影响 对 后 面 问题 的 解答 。 在 测验 最 后 可 有 少数 难度 较 
大 的 题目 ， 以 测 出 受 测 者 的 最 高 水 平 。 

下 面 是 两 种 常见 的 测验 项 目的 排列 方式 : 
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(1) 并 列 直 进 式 : 此 种 方式 是 将 整个 测验 按 测验 项 目 材料 
的 性 质 妇 为 若干 分 测验 ， 对 于 同一 分 测验 的 测验 项 目 ， 则 依 其 
难度 由 易 到 难 排列 。 

(2) 混合 螺旋 式 ， 此 种 方式 是 先 将 各 类 测验 项 目 依 难 度 分 
成 车 干 不 同 的 层次 ， 再 将 不 同性 质 的 测验 项 目 予 以 组 合 ， 作 交 
义 式 的 排列 ， 其 难度 则 渐次 升 进 。 此 种 排列 的 优点 是 ， 受 测 者 
对 各 类 测验 项 目 循序 作答 ， 从 而 维持 作答 的 兴趣 。 


(三 ) 编制 复 本 

为 增加 实际 的 效用 ， 一 种 测验 至 少 要 有 等 值 的 两 份 ， 份 数 
越 多 ,使 用 起 来 越 便 种。 所 谓 等 值 需 要 符合 下 列 条 件 : 

(1) 各 份 测验 测量 的 是 同一 种 心理 特质 。 

(2) 各 份 测验 具有 相同 的 内 容 和 形式 。 

(3) 各 份 测验 不 应 有 重复 的 项 目 。 

(4) 各 份 测验 项 目 数量 相等 ， 并 且 有 大 体 相 同 的 难度 和 区 
分 度 。 

只 要 有 足 静 数量 的 测验 项 目 ， 编 制 复 本 的 手续 是 很 简单 
的 ， 先 将 所 有 可 用 的 项 目 按 难 度 排列 ， 其 次 序 为 1、2、3、4、 
5、6……- 如 果 要 分 成 两 个 等 值 的 测验 本 ， 可 采用 下 面 的 


A 本 : 1、4、5、8、9、12、 13、16、17、20.… 

B 本 : 2、3、6、7、10、11、14、1S$ 、18 、19…… 

如 果 要 分 成 3 个 等 值 的 测验 本 ， 可 采用 下 面 的 分 法 ; 

A 本 : 1、6、7、12、13、18 、19 、24……- 

B 本 : 2、$、8、11、14、17 、20 、23-……- 

C 本 : 3、4、9、10、15、16、21、22.…… 

采用 上 面 的 分 法 可 使 各 复 本 之 闻 在 难度 上 基本 相等 ， 从 而 
获得 大 体 相同 的 分 数 分 布 。 复 本 编 好 后 ， 应 该 再 测验 一 次 ， 以 
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确定 各 份 测验 究竟 是 否 等 值 。 








六 、 测 验 标准 化 


一 个 测验 的 好 坏 ， 取 决 于 对 该 测验 的 标准 化 水 平 。 所 谓 标 
准 化 是 指 测验 的 编制 、 施 测 、 评 分 以 及 解释 测验 分 数 的 程度 的 
一 致 性 。 具 体 地 说 ， 测 验 标准 化 包括 下 列 内 容 : 


(一 ) 测验 内 容 
标准 化 的 首要 前 提 ， 是 对 所 有 受 测 者 施 测 相同 的 或 等 值 的 
题目 ， 测 验 内 容 不 同 ， 所 测 得 的 结果 无 法 比较 。 


(二 ) 施 测 过 程 

标准 化 的 第 二 个 条 件 是 所 有 受 测 者 必须 在 相同 的 条 件 下 施 
测 。 其 中 包括 : 

(1) 相同 的 测验 情境 : 如 统一 的 采光 条 件 ， 统 一 的 桌 椅 高 
度 ， 统 一 的 素面 面积 ， 统 一 的 场所 布置 等 。 

(2) 相同 的 指导 语 ; 指导 语 一 般 包括 两 部 分 ， 一 是 向 爱 测 
者 说 明 测验 的 目的 ， 以 便 解 除 受 测 者 的 顾 虚 ;二 是 向 受 测 者 说 
明 如 何 对 测验 项 目 反 应 。 指 导语 必须 事先 拟 好 ， 印 在 测验 项 目 
的 前 面 ， 并 且 力 求 清晰 、 简 单 、 明 了 ， 不 致 引起 误解 。 对 受 测 
者 不 熟悉 的 测 题 类 型 ， 应 当 有 一 至 二 个 例题 。 

(3) 相同 的 测验 时 限 : 测验 的 时 间 限 制 是 测验 程序 中 的 重 
要 方面 。 不 过 ， 不 同 的 测验 对 时 限 要 求 很 不 相同 。-- 般 来 说 ， 
人 格 测 验 对 时 限 的 要 求 不 太 严 格 ， 甚 至 不 要 求 时 间 限 制 ; 但 能 
力 测验 和 学 续 测 验 必须 考虑 时 限 问 题 。 确 定时 限 一 般 采 用 尝试 
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法 ， 即 通过 预测 来 决定 。 通 常 的 时 限定 为 大 约 90% 的 受 测 者 
在 预定 的 时 间 完 成 全 部 测验 项 目 邯 可 。 


(三 ) 测验 评分 

评分 的 客观 性 是 标准 化 测验 的 第 三 个 条 件 ， 评 分 的 客观 性 
意味 车 两 个 或 两 个 以 上 的 评分 者 对 同一 份 测验 试卷 的 评定 是 一 
致 的 。 只 有 当 评 分 是 客观 的 时 候 才 能 将 分 数 的 差异 妇 于 受 测 者 
本 身 的 差异 。 但 要 做 到 完全 客观 《一 致 ) 的 评分 是 较 困 难 的 。 
一 般 来 说 ， 不 同 评分 者 之 间 的 一 致 性 达到 90% 以 上 ， 便 可 认 
为 评分 是 客观 的 。 窜 观 性 评分 要 求 ; 

《1) 对 反应 要 及 时 清楚 地 记录 ， 以 免 由 于 记忆 丧失 造成 混 
乱 ， 尤 其 是 在 口头 测验 和 操作 测验 中 更 应 如 此 。 

《2) 要 有 一 张 标准 答案 或 正确 反应 的 表格 ， 即 记分 键 。 选 
择 题 测验 的 记分 键 包 括 每 一 测验 项 目 正 确 反应 的 号 码 或 字母 ; 
问答 题 的 记分 键 包括 一 系列 的 正确 答案 和 允许 变化 的 范围 ， 论 
文 题 的 记分 键 包 括 一 致 可 接受 答案 的 要 点 ; 人 格 测验 没有 正确 
答案 ， 记 分 键 上 指明 的 是 具有 或 缺少 某 种 人 格 特征 者 的 典型 
反应 。 

(3) 将 受 测 者 的 反应 与 记分 键 比 较 ， 确 定 受 测 者 反应 应 得 
的 分 数 。 


(四 ) 测验 分 数 的 解释 

一 个 标准 化 的 测验 ， 不仅 指 测验 内 容 、 施 测 过 程 和 评分 程 
序 的 标准 化 ， 而 且 指 对 测验 结果 的 解释 的 标准 化 。 如 果 对 同一 
测验 结果 《分 数 ) 可 做 出 不 同 的 解释 ， 那么 测验 便 失 去 了 客 
观 性 。 

某 一 测验 分 数 只 有 与 一 定 的 参照 标准 相 比 较 ， 才 能 显现 出 
它 所 代表 的 意义 。 在 心理 测验 中 ， 建 立 参 照 标 准 的 过 程 也 就 是 
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建立 常 模 的 过 程 。 建 立 常 模 的 方法 ， 请 参见 第 七 章 。 


测验 编 好 后 ， 必 须 对 其 可 车 性 和 有 效 性 进行 鉴定 ， 以 便 确 
定 该 测验 是 否 可 用 。 对 测验 的 鉴定 ， 主 要 是 确定 其 信和 度 系 数 和 
效 度 系数 。 


(一 ) 信和 度 (reliability》 

信和 度 指 的 是 油 验 的 可 区 性 ， 即 用 同一 测验 多 次 测量 同一 著 
体 ， 所 得 测验 结果 之 间 具 有 一 致 性 。 我 们 用 锅 片 卷 尺 去 测量 一 
木 杆 的 长 度 ， 所 得 结果 是 可 靠 的 ， 因 为 无 论 是 由 一 个 人 数 次 测 
量 ， 还 是 分 别 由 数 个 人 去 测量 ， 所 测 得 结果 都 是 一 致 的 。 如 果 
改 用 橡皮 坎 尺 去 测量 木 杆 ， 一 人 多 次 或 多 人 测量 结果 就 难以 一 
致 ， 也 就 是 说 ， 这 一 测量 工具 是 缺乏 信 度 的 。 由 此 可 见 ， 信 度 
是 衡量 测验 质量 的 最 基本 的 指标 ， 因 而 测验 编 好 后 首先 要 鉴定 
该 测验 的 信和 度 。 


《二 》 效 度 (validity) 

效 度 指 的 是 测验 的 有 效 性 ， 即 一 个 测验 在 多 大 程度 上 能 够 
测 得 它 所 要 测 得 的 东西 。 如 果 一 个 测验 的 效 度 很 低 ， 那 么 说 明 
该 测验 所 测 得 的 东西 不 是 它 所 要 测 的 东西 。 例 如 ， 智 力 测 验 所 
要 测 的 东西 应 是 智力 ， 假 如 它 测 得 的 是 知识 或 人 格 ， 那 么 就 说 
明 这 个 智力 测验 对 于 测量 智力 是 无 效 。 因 此 ,测验 编 好 后 ,还 
必须 检验 该 测验 的 效 度 。 
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(三 ) 测验 量 表 与 常 模 

企 何 测 基 都 是 以 数量 化 的 形式 来 表达 测 车 结果 的 。 心 理 测 
景 是 以 心理 测验 为 测量 工具 的 ， 它 必须 采用 一 定 的 量 表 作为 标 
准 化 的 记分 制度 ,来 实现 测验 结果 的 数量 化 。 所 以 ,测验 编制 
者 为 了 说 明和 解释 测验 结果 ， 必 须根 据 测验 的 性 质 、 用 途 以 及 
所 要 达到 的 测量 车 表 的 水 平 ， 按 照 统计 学 的 原理 ， 把 某 一 标准 
化 样本 的 测验 分 数 转化 为 具有 一 定 参 照 点 、 等 值 单位 的 导出 分 
数 ， 这 就 是 所 谓 的 测量 量 表 。 在 心理 测验 中 ,常见 的 测验 最 表 
有 百 分 等 级 量 表 、 标 准 分 数量 表 、T 量 表 、 发 展 其 表 、 智 力 商 
数量 表 等 。 如 果 将 标准 化 样本 的 测验 分 数 与 相应 的 某 一 或 几 个 
测验 量 表 分 数 一 起 用 表格 的 形式 呈现 出 来 ， 就 是 该 测验 的 常 模 
表 。 标 准 化 的 心理 测验 都 在 测验 手册 中 提供 有 可 供 解释 测验 分 
数 的 党 模 表 。 


和 八 、 编 写 测 验 说 明 书 


测验 说 明 书 向 测验 使 用 者 说 明 如 何 使 用 该 测验 ， 以 此 才能 
保证 测验 的 信和 度 和 效 度 。 说 明 书 应 包括 下 列 内 容 : 

(1) 本 测验 的 目的 与 功用 。 

(2) 本 测验 的 理论 依据 。 

(3) 测验 内 容 及 实施 测验 的 方法 ， 包 括 @ 何 种 测验 ; 十 内 
容 分 几 部 分 ; @ 每 部 分 有 多 少 测验 项 目 ; @ 如 何 作 管 等 等 。 

(4) 测验 的 标准 答案 和 评分 方法 。 

{5) 关于 测验 的 信和 度 、 效 度 资料 的 说 明 。 

(6) 常 模 表 ， 即 如 何 依据 常 模 解释 测验 结果 。 
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第 二 节 ”测验 的 实施 


| 一 个 经 过 信 度 和 效 度 检验 证 明 可 用 ， 并 己 获 得 常 模 资料 的 

测验 便 可 正式 出 版 交付 使 用 了 。 测 验 的 使 用 主要 涉及 两 个 问 
” 题 如 何 实施 测验 才能 保证 测验 分 数 尽 可 能 少 受 施 测 过 程 的 
影响 ;四 如 何 解释 测验 分 数 才能 保证 受 测 者 的 心理 不 受 负面 影 
响 。 本 节 围 绕 着 上 述 两 个 问题 讨论 使 用 心理 测验 的 一 些 技术 性 
问题 。 


一 、 测 验 的 实施 过 程 . 


心理 与 教育 测验 的 基本 原理 在 于 ， 通 过 观测 受 测 者 存 测验 
情境 中 的 行为 样本 ， 可 以 推断 他 平日 的 一 般 行 为 特征 。 换 句 话 
说 ,根据 测验 分 数 ， 可 以 预测 受 测 者 可 能 会 产生 什么 心理 症 
状 , 或 可 能 做 出 哪 方 面 的 工作 成 绩 等 等 。 但 实际 测验 分 数 不 仅 
受到 与 测验 目的 有 关 的 变量 的 影响 ,而且 也 可 能 受到 与 测验 目 
的 无 关 的 变量 引起 的 影响 。 换 言 之 ,测验 分 数 不 仅 决定 于 测 晤 
工具 本 身 ， 也 受 测验 过 程 的 影响 。 因 此 ， 在 施 测 过 程 中 ， 施 测 
者 应 当 了 解 哪些 因素 会 影响 测验 分 数 ， 并 进一步 对 这 些 因 素 进 
行 有 效 的 控制 。 
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《一 ) 施 测 前 的 准备 工作 

一 个 好 的 施 测 程序 中 最 重要 的 就 是 预先 做 好 准备 。 

(1) 准备 好 测验 材料 。 施 测 者 必须 把 施 测 中 所 要 用 的 材料 
按 一 定 顺序 放置 在 适当 的 位 置 ， 使 受 测 者 易于 看 到 和 找到 。 例 
如 在 操作 测验 里 ， 要 求 受 测 者 拼 一 个 马 图 ， 施 测 者 必须 将 马 图 
的 几 个 碎片 按 规定 的 顺序 和 位 置 放 在 受 测 者 面前 。 如 果 不 事先 
效 记 放置 的 顺序 ， 到 时 必定 会 手忙脚乱 ,安放 不 合 规定 ， 以 致 
有 的 受 测 者 可 能 因 碎 片 的 位 置 引起 对 马 的 某 一 部 分 的 联想 使 他 
易于 得 分 ， 而 另 一 些 受 测 者 可 能 相反 ， 丢 失 了 不 应 丢失 的 分 
数 。 大 部 分 智力 测验 表 都 有 操作 测验 ， 操 作 材料 的 放置 都 有 相 
应 的 规定 ， 因 此 ， 都 必须 事先 做 好 准备 。 

{2) 熟练 掌握 施 测 手续 。 为 了 掌握 施 测 手续 ， 必 须 对 施 测 
者 进行 必要 的 训练 。 训 练 的 内 容 包 括 ; 四 熟悉 测验 内 容 ; 四 千 
担 施 测 步 又 ; 图 掌握 记分 方法 ; 图 掌握 解释 分 数 的 技术 。 

(3) 熟 记 测 验 指导 语 并 能 用 口语 清楚 而 流利 地 说 出 来 。 凡 
是 要 求 念 读 的 指导 语 都 不 应 念 错 、 停 顿 、 重 复 或 结 结巴 巴 ， 否 
则 会 影响 测验 分 数 。 


(二 ) 指导 语 

心理 测验 的 指导 语 通常 包括 对 测验 目的 的 说 明和 对 题目 反 
应 方式 的 解释 。 指 导语 直接 影响 受 测 者 反应 的 态度 和 方式 。 有 
大 癌 以 三 种 不 同 的 指导 语 对 三 组 受 测 者 实施 握 一 答 力 测验 ， 结 
果 是 将 该 测验 说 成 “智力 测验 ”的 一 组 成 绩 最 好 ， 而 将 它 说 成 
“日 常 测验 ”的 一 组 成 绩 最 差 。 人 格 测验 常 涉及 一 些 受 测 者 敏 
感 的 问题 ， 因 此 ， 指 导语 不 适当 ,会 造成 很 多 不 利 的 影响 。 

指导 语 的 主要 作用 是 使 受 试 者 按 正确 形式 对 题目 作出 反 
应 。 确 定 指导 语 时 ， 要 注意 不 要 暗示 受 测 者 应 该 选择 什么 样 的 
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答案 。 当 指导 语 中 包括 对 测验 目的 的 说 明 时 ， 更 应 注意 这 一 
点 ， 一 般 要 求 测验 的 主持 者 和 指导 语 都 应 保持 和 表述 中 立 的 态 
度 ， 不 倾向 于 答案 中 的 任何 一 种 方向 。 

一 般 的 能 力 测验 和 成 就 测验 都 要 求 有 标准 严格 的 时 间 限 
制 ， 因 为 速度 是 能 力 测量 中 的 一 个 重要 因素 ， 而 人 格 测验 和 态 
度 测验 一 般 不 要 求 有 时 间 限 制 。 、 


(三) 测验 情境 

测验 情境 包括 测验 场地 (通风 、 光 线 、 品 音 )、 座 位 、 答 
案 纸 型 等 。 这 些 因 素 都 会 影响 测验 分 数 ， 因 而 需要 加 以 必要 的 
控制 ， 使 之 对 每 一 个 受 测 者 都 保持 相同 。 标 准 化 测验 一 般 都 对 
测验 条 件 做 出 严格 的 规定 ， 其 中 包括 采光 条 件 、 桌 椅 的 高 度 、 
桌面 的 面积 ,测验 采用 的 试卷 都 用 同一 种 纸张 按 同 一 规格 印 
剧 ， 受 测 者 答题 时 所 用 的 铅笔 一 般 由 施 测 者 统一 提供 等 。 

这 里 尤其 要 强调 的 是 ， 心 理 测验 进行 之 时 ， 务 必 不 能 有 外 
界 干扰 。 为 此 ， 洞 验 室 的 房 门 应 挂 上 一 个 牌子 ,示意 测验 正在 
进行 ， 旁 人 不 许 进入 。 团 体 测验 时 ， 可 以 把 屋 门 锁 上 或 派 一 名 
助手 在 门 外 守候 ， 阻 止 晚 来 者 人 场 。 

施 测 者 的 状态 对 测验 分 数 也 有 影响 ， 施 测 者 的 语言 、 行 
为 : 态度 、 表 情 等 都 要 严格 控制 。 


(四 ) 测验 焦虑 

测验 焦 卡 是 指 被 试 因 接 受 测验 而 产生 的 一 种 忧 目 和 紧张 情 
绪 ， 它 会 影响 测验 结果 的 真实 性 。 例 如 进行 操作 性 测验 时 ， 由 
于 过 度 紧 张 会 使 手眼 失去 良好 的 协调 ; 又 如 考试 之 前 要 求学 生 
定 出 得 分 指标 为 90 分 ， 有 一 两 题 做 不 出 〔 每 题 10 分 )， 一 个 
上 进 心 很 强 的 学 生 就 会 产生 不 安 情绪 。 因 此 ， 在 测验 时 ， 应 注 
意 稳定 被 试 的 情绪 。 主 试 有 时 可 以 利用 保证 测验 结果 绝对 保密 
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或 鼓励 被 试 等 方法 来 消除 测验 焦虑 。 心 理学 的 有 关 研 究 证 实 : 
QD 能 旋 与 测验 焦虑 成 负 相 关 ， 亦 即 能 力 愈 高 的 入， 测验 焦虑 愈 
低 。 外 抱负 水 平 与 焦虑 成 正 相 关 ， 也 即 愈 渴望 得 高 分 ， 测 验 焦 
虑 愈 高 。 二 竞争 性 测验 的 测验 焦虑 高 ， 经 常 接受 测验 的 人 焦 虚 
低 一 些 - 四 轻微 的 测验 焦虑 会 增进 测验 效果 ， 但 焦 虚 太 高 或 毫 
无 测验 焦虑 ， 则 会 降低 测验 效果 。 

实施 测验 时 ， 主 试 的 以 下 4 种 态度 容易 使 被 试 产生 过 度 的 
焦 虚 ， 应 尺 可 能 避免 。 

(1) 以 测验 来 威胁 被 试 ， 以 使 被 试 循规蹈矩 。 

(2) 警告 被 试 一 定 要 尽力 ， 因 为 “这 项 测验 很 重要 ”。 

(3) 告诉 被 试 答题 要 快 ， 才 能 在 规定 的 时 间 内 答 完 。 

{4) 改 吓 被 试 说 : “如 果 测 验 失 败 ， 会 有 严重 的 不 臭 后 
果 。” 


(五 ) 与 受 测 者 建立 良好 的 协调 关系 

在 心理 测量 学 中 ， 良 好 的 协调 关系 指 的 是 施 测 者 努力 设法 
引起 受 测 者 对 测验 的 兴趣 ， 取 得 他 的 合作 ， 以 保证 他 能 按照 标 
准 测验 指导 语 行事 。 在 做 能 力 测验 时 ， 应 要 求 受 测 者 认真 集中 
注意 于 当前 的 任务 ， 并 要 求 他 尽 最 大 的 努力 来 完成 它 ; 在 填写 
人 和 格 癌 着 表 时 ， 应 要 求 他 坦率 而 忠实 地 回答 问题 ; 在 做 投射 性 
测验 时 ， 则 要 求 他 将 由 刺激 唤起 的 联想 充分 报告 出 来 .如 此 等 
等 。 总 之 , 施 测 者 要 力图 激 起 受 测 者 尽量 地 并 有 意识 地 按照 指 
导语 去 做 。 

根据 测验 往 质 的 不 同 、 受 测 者 的 年 龄 以 及 其 他 特点 的 不 
同 ， 建 立 良 好 协调 关系 的 技巧 也 有 所 不 同 。 在 测试 学 龄 前 儿童 
时 ， 就 要 考虑 到 儿童 对 陌生 人 其 丑 ， 注意 力 分 散 等 特点 。 施 测 
者 以 友好 、 恰 快 、 放 松 的 自然 态度 可 以 使 儿童 感到 信任 ， 那 些 
害羞 、 胆 小 的 儿童 需要 较 多 的 时 间 来 熟悉 情境 因此. 施 测 者 
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不 能 操之过急 ,匆忙 示范 ， 耐 心 等 待 儿童 到 他 愿意 接触 时 再 开 
始 。 测 验 要 像 玩 游戏 一 样 旦 现 给 儿童 ,幼儿 有 时 会 拒绝 测验 ， 
有 时 没有 兴趣 ， 测 验 手续 就 要 相对 灵活 一 些 。 对 小 学 一 二 年 级 
甚至 三 年 级 的 小 学 生 ， 测 验 也 要 像 做 游戏 似 的 才 容易 引起 他 们 
的 兴趣 。 再 大 一 些 的 学 生 则 通过 竞赛 精神 去 激发 他 们 做 好 
测验 。 

在 测验 学 校 儿 童 或 成 人 时 必须 记 住 ， 每 个 测验 都 暗含 有 暴 
露 某 个 人 弱点 的 可 能 。 例 如 ， 这 个 题目 答 不 出 来 ， 那 个 拼图 不 
城 功 ， 这 都 会 使 人 感到 丢 而 子 。 因 此 ,测验 一 开始 就 可 以 说 清 
起， 没有 人 人 能够 正确 答 出 所 有 这 些 题 目 。 这 样 交 代 郊 句 是 有 好 
处 的 ， 和 否则 他 们 在 过 到 困难 题目 时 就 会 体验 一 种 失败 的 挫折 
感 ， 甚 至 影响 到 不 能 在 规定 时 限 内 完成 其 它 测验 。 

鼓励 受 测 者 努力 完成 测验 ， 争 取 他 的 合作 ， 使 他 表现 出 真 
实 水 平 或 实际 情况 ， 这 并 不 是 说 在 受 测 者 不 会 敌 时 可 以 给 他 提 
示 、 暗 示 或 者 任何 方式 的 帮助 ,这样 做 同样 会 使 测验 分 数 失 去 
作用 。 


(六 ) 评分 技术 

在 标准 化 的 心理 测验 中 ， 测 验 与 答卷 通常 是 分 开 的 。 被 试 
将 测验 项 目的 答案 直接 记录 在 专用 管 卷 上 。 另 外 备 有 一 份 标准 
答案 卡 ， 此 为 记分 键 ， 评 分 时 只 要 将 被 试 的 答案 逐一 与 标准 答 
案 相 比 较 ， 即 可 评定 被 试 应 得 的 分 数 。 有 时 候 为 了 节省 评分 的 
时 间 ， 采 用 记分 板 来 记分 。 所 请 记 分 板 是 把 一 张 空白 答案 纸 上 
的 正确 答案 打 成 圆 形 或 方形 的 洞 ， 评 分 时 只 要 将 记分 板 套 在 每 
一 张 答案 纸 上 ， 然 后 统计 从 洞 中 出 现 的 正确 答案 之 数目 即 可 。 
凡 洞 中 未 出 现任 何 记号 者 ， 需 以 红 笔画 上 斜 线 ， 这 样 可 让 被 试 
知道 答 错 了 哪些 题 。 
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二 、 测 验 分 数 的 解释 


测验 分 数 的 解释 涉及 两 个 问题 : 一 是 如 何 看 待 测验 分 数 的 
意义 ; 二 是 如 何 将 测验 分 数 的 意义 告诉 给 受 测 者 。 


(一 ) 如 何 看 待 测验 分 数 的 意义 

施 测 者 进行 一 个 测验 结果 的 解释 必须 一 方面 对 所 做 的 其 体 
测验 〈 包 括 它 的 常 模 的 代表 性 、 信 和 度 、 效 度 、 难 度 等 ) 要 熟悉 
了 解 ， 另 一 方面 对 受 测 者 的 情况 〈 文 化 程度 、 职 业 、 是 否 可 能 
接触 测验 中 的 有 关 癌 题 等 ) 也 要 有 所 了 解 。 此 外 还 必须 结合 当 
时 测验 的 具体 情况 ,例如 是 否 有 干扰 ， 受 测 者 当时 有 无 情绪 波 
动 或 身体 不 适 等 综合 考虑 。 同 一 个 分 数 可 能 是 由 于 不 同 原因 造 
成 的 ， 合 格 的 施 测 者 会 结合 以 上 三 方面 的 因素 对 测验 分 数 作 解 
释 ， 对 同一 分 数 可 作出 不 同 解释 。 例 如 ， 困 平均 初中 文化 程度 
的 标准 化 样本 的 智力 测验 来 测量 一 个 不 够 初 小 文化 程度 的 受 测 
者 ， 如 果 测 得 1Q 为 85， 就 可 以 认为 他 基本 上 是 中 等 智力 水 
平 ; 如 果 受 测 者 原来 文化 程度 是 大 学 毕业 ， 也 测 得 1Q 为 85， 
就 可 解释 为 受 测 者 可 能 因 疾 病 而 使 智力 有 所 减退 ， 属 于 中 下 水 
平 。 

关于 测验 分 数 的 解释 ， 高 德 受 〈Goldman) 曾 提出 一 个 含 
有 三 个 维度 的 解释 模型 ， 可 作为 解释 分 数 的 参考 。 这 三 个 维度 
分 别 是 解释 测验 分 数 的 类 型 、 资 料 处 理 的 方法 和 资料 的 来 源 。 
他 提出 解释 测验 分 数 的 4 种 类 型 : 叙述 的 解释 、 闭 因 的 解释 、 
预测 的 解释 及 评价 的 解释 。 资 料 处 理 的 方法 有 两 种 ， 机 械 的 处 
理 与 非 机 械 的 处 理 。 资 料 的 来 源 有 两 种 ， 测验 资料 与 非 测验 资 
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料 。 将 此 三 个 维度 加 以 组 合 ， 可 有 4x2x2=16 种 不 同 的 解释 
方式 。 

就 资料 的 来 源 而 言 ， 有 测验 资料 和 非 测验 资料 。 前 者 系 指 
由 各 种 标准 化 测验 所 得 到 的 分 数 ; 后 者 则 包括 学 校 成 绩 、 家 庭 
背景 、 晤 谈 或 观察 所 得 资料 。 

就 资料 的 处 理 方法 而 言 ， 有 机 械 的 处 理 与 非 机 械 的 处 理 。 
前 者 又 可 称 为 统计 的 处 理 ， 包 括 常 模 对 照 表 、 预 期 表 、 侧 面 图 
分 析 及 回归 预测 等 ;后 者 又 可 称 为 临床 诊断 的 处 理 ， 采 用 归纳 
与 演绎 的 推理 方法 ， 综 合 评判 资料 的 意义 ， 此 种 方法 比较 主 
观 、 直 觉 与 不 清楚 。 

就 解释 的 类 型 而 言 ， 上 述 4 种 解释 类 型 代表 了 4 种 不 同 层 
次 的 解释 方式 。 每 种 解释 类 型 的 含义 如 下 ; 

(1) 叙述 的 解释 : 指 描 述 个 人 的 心理 特征 状态 。 例 如 ， 这 
个 学 生 是 一 位 怎样 的 学 生 ? 聪明 的 ? 中 等 的 ? 或 题 繁 的 ? 他 的 
语文 推理 是 否 优 于 非 语文 推 理 ?” 他 喜欢 微 些 什么 ”有 什么 样 的 
性 格 特点 ? 

{2) 湖 因 的 解释 : 指 追 潮 过 去 以 解释 个 人 目前 的 发 展 情 
况 。 例 如 ， 他 为 什么 会 这 样 ? 他 的 阅读 困难 是 否 是 情绪 困扰 的 
结果 ? 或 缺乏 基本 的 阅读 技能 ? 或 缺乏 学 习 的 兴趣 ? 他 拒绝 机 
械 的 学 习 活 动 是 否 由 于 父母 的 压力 ? 或 过 去 的 失败 ? 或 兴趣 太 
广泛 所 致 ? , 

(3) 预测 的 解释 : 指 推 估 个 人 未 来 的 可 能 发 展 情形 。 例 
如 ， 他 上 高 中 的 成 绩 会 怎样 ? 他 升 人 大 学 的 可 能 性 有 多 大 ? 他 
在 理科 方面 的 发 展 是 否 比 在 文科 方面 的 发 展 更 能 成 功 ? 他 是 否 
可 能 成 为 一 个 问题 青年 ? 

(4) 评价 的 解释 : 指 作 价值 的 判断 或 做 决定 。 此 种 解释 是 
依据 上 述 几 种 解释 而 作 的 判断 。 例 如 ， 准 许 人 高 中 或 大 学 、 雇 
用 人 员 、 编 班 等 均 是 属于 此 种 解释 。 他 应 该 学 习 什 么 样 课程 ? 
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进 什 么 样 大 学 ? 他 应 该 成 为 工程 师 或 商务 经 理 ? 
在 解释 测验 分 数 的 意义 时 ， 应 遵循 以 下 几 个 基本 原则 ， 
(1) 主 试 应 充分 了 解 测验 的 性 质 与 功能 。 测 验 使 用 者 必须 

具备 心理 测验 的 基本 知识 与 概念 ， 方 能 了 解 测验 的 性 质 与 限 

制 。 任 何 一 个 测验 都 有 其 编制 的 特定 目的 和 独特 的 功能 ， 使 用 

者 在 解释 之 前 必须 从 其 编制 手册 中 ， 详 细 了 解 编制 过 程 的 标准 

化 及 测验 的 信 度 、 效 度 、 常 模 等 是 否 适 当 。 更 重要 的 ， 应 知道 

测验 能 测量 什么 ， 不 能 测量 什么 ， 分 数 在 使 用 上 有 何 限制 。 有 

时 两 个 测验 的 类 型 虽然 相同 ， 但 测量 的 功能 往往 不 同 。 例 如 ， 

韦 克 斯 勤 智力 量 表 和 瑞 文 标准 推理 测验 都 是 智力 测验 ， 但 内 部 

结构 有 很 大 的 不 同 ， 所 能 发 挥 的 作用 也 有 区 别 。 再 如 ， 卡 特 尔 

16PF 测验 与 明尼苏达 多 相 人 格调 查 表 都 是 人 格 测 验 ， 但 后 者 

更 多 地 发 挥 临床 诊断 的 功能 ， 前 者 则 更 多 地 针对 正常 人 。 在 教 

育 测验 里 ， 也 是 这 样 。 同 是 算术 测验 ， 有 的 偏重 简单 的 计算 技 

能 ， 有 的 却 偏重 推理 能 力 ; 同 是 科学 能 力 测验 ， 有 的 注重 测量 

科学 术语 的 基本 知识 ， 有 的 却 注重 测量 科学 原理 的 应 用 。 对 以 

上 这 些 有 了 正确 的 认识 ， 方 能 作客 观 的 解释 。 
(2) 对 导致 测验 结果 的 原因 的 解释 应 慎重 ,谨防 片面 极 

端 。 一 个 人 在 任何 一 个 测验 上 的 分 数 ， 都 是 他 的 遗传 特征 、 测 

验 前 的 学 习 与 经 验 ， 以 及 测验 情境 的 函数 ， 这 3 个 方面 对 测验 

成 绩 都 有 影响 。 所 以 我 们 应 该 把 测验 分 数 看 成 对 受 测 者 目前 状 

况 的 测量 ， 至 于 他 是 如 何 达 到 这 一 状况 的 ， 则 受 许多 因素 

影响 。 

为 了 能 对 分 数 作出 有 意义 的 解释 ， 必 须 将 个 人 在 测验 前 的 

经 历 或 背景 因素 考虑 在 内 。 比 如 ， 在 词汇 上 得 到 相同 的 分 数 ， 

对 于 大 城市 的 孩子 与 边远 山区 的 孩子 具有 不 同 的 意义 。 惠 勤 曾 

于 1932 年 测量 了 美国 某 山 区 儿童 的 智力 ， 发 现 6 岁 以 前 的 儿 

童 ， 其 智力 与 常 模 相近 ; 6 岁 以 后 与 常 模 的 差距 随 年 龄 递增 ， 
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这 是 由 于 环境 影响 ， 得 不 到 平等 学 习 机 会 的 结果 。 

测验 情境 也 是 一 个 需要 考虑 的 因素 。 比 如 ， 一 个 学 生 可 能 
因为 身体 不 适 ， 情 绪 不 佳 ， 不 明了 施 测 者 的 说 明 或 受到 意外 干 
扰 ， 这 些 都 会 产生 测验 焦虑 。 如 果 对 这 些 因 素 控制 得 不 好 ， 就 
会 使 分 数 受到 影响 。 在 这 种 情况 下 ， 应 当 找 出 造成 分 数 反 常 的 
原因 ， 而 不 要 单纯 以 分 数 武断 地 下 结论 。 

(3》 必须 充分 估计 测验 的 常 模 和 效 度 的 局 限 性 。 为 了 对 测 
验 分 数 作出 确切 的 解释 ， 只 有 常 模 资 料 是 不 够 的 ， 还 必须 有 效 
度 资料 。 没 有 效 度 证 据 的 常 模 资 料 ， 只 告诉 我 们 一 个 人 在 一 个 
常 模 团体 中 的 相对 等 级 ， 不 能 做 预测 或 更 多 的 解释 。 在 解释 分 
数 时 人 们 最 常 犯 的 错误 就 是 仅 根据 测验 的 标题 和 常 模 数据 去 扒 
论 测验 分 数 的 意义 ， 而 忽略 效 度 的 不 足 或 缺乏 。 假 若 一 个 测验 
的 名 称 是 内 外 向 量 表 ， 并 有 可 利用 的 常 模 资料 ， 那 么 就 很 容易 
把 得 高 分 的 人 说 成 是 内 向 性 格 ， 即 把 它 当 作 有 效 度 资料 那样 来 
解释 。 

即使 有 了 效 度 资料 ， 在 对 测验 分 数 作 解 释 时 也 要 十 分 说 
慎 。 因 为 测验 效 度 的 概 化 能 力 是 有 限 的， 不 同 的 常 模 团 体 和 不 
同 的 施 测 条 件 ， 往 往 会 得 到 不 同 的 结果 。 在 解释 分 数 时 ， 一 定 
要 依据 从 最 相近 的 团体 ， 最 相 匹 配 的 情境 中 获得 的 资料 。 

(4) 解释 分 数 应 参考 其 他 有 关 资 料 。 测 验 分 数 不 是 了 解 学 
生 的 唯一 资料 ， 为 正确 了 解 其 心理 特质 尚 需 参 考 其 他 有 关 资 
料 。 只 凭 学 生 的 单一 测验 分 数 解 释 其 心理 状态 ， 容 易 作 出 错误 
的 解释 。 例 如 ， 某 生 在 智力 测验 上 得 到 1Q 为 80， 在 不 考虑 其 
他 资料 的 情况 下 ， 只 能 解释 ;“ 甲 生 的 智力 属于 中 等 偏 下 。 但 
是 ， 如 考虑 他 的 在 校 成 绩 时 ， 解 释 可 能 大 不 相同 。 如 果 他 的 在 
校 成 绩 经 常 保持 在 年 级 前 五 名 ， 则 不 可 能 作出 如 上 的 解释 ， 可 
能 需要 进一步 探讨 他 在 做 测验 时 的 动机 、 态 度 、 情 绪 与 健康 状 
况 等 。 有 了 这 些 资料 作为 佐证 ， 才 能 正确 判断 其 智力 是 否 全 部 


er 心理 与 教育 测量 


正常 发 挥 ， 测 验 结果 是 否 可 靠 。 

同样 的 ， 解释 时 亦 须 参考 其 它 的 测验 资料 ， 只 凭单 一 的 测 
验 分 数 加 以 解释 ， 也 可 能 全 然 不 同 于 综合 考虑 儿 个 测验 分 数 。 
例如 ， 根 据 自 陈 重 表 测验 的 分 数 ， 某 生 的 性 压 挤 分 数 高 于 平均 
数 两 个 标准 差 ; 但 在 投射 测验 中 有 关 性 的 反应 ， 却 高 于 平均 数 
一 个 标准 差 。 如 仅 依 自 陈 量 表 的 分 数 解释 时 ,只 能 解释 说 : 
“ 某 生 的 性 压抑 倾 问 甚 强 。” 但 如 果 参 照 投射 测验 的 分 数 综合 解 
释 时 ， 册 可 解释 说 : “ 某 生 的 性 兴趣 强 于 一 般 人 《投射 测验 )， 
但 他 却 将 性 兴趣 加 以 严重 的 压 排 《 自 陈 量 表 )。 

总 之 ， 测 验 分 数 的 解释 应 尽 可 能 参考 其 他 的 资料 ， 如 教育 
经 验 、 文 化 背景 、 面 谈 内 容 、 习 惯 、 态 度 、 兴 趣 、 动 机 、 健 
康 、 语 文 程度 及 其 他 测验 的 资料 。 唯 有 如 此 ， 解 释 才 能 更 客观 
且 更 深入 。 

(5) 对 测验 分 数 应 以 “一 段 分 数 ” 来 解释 ， 而 不 应 以 “ 特 
定 的 数值 ”来 解释 。 由 于 每 一 个 测验 均 会 受到 测量 误差 的 影 
响 ， 因 此 在 解释 测验 分 数 时 也 应 考虑 到 测量 误差 的 存在 。 测 量 
误差 的 大 小 与 信和 度 的 高 低 有 关 。 信 和 度 越 高 ， 则 误差 越 小 。 但 永 
远 不 可 能 完全 消除 误差 ， 因 此 ， 应 该 永远 把 测验 分 数 视 为 一 个 
范围 而 不 是 一 些 确定 的 点 ， 也 就 是 要 对 测验 分 数 提供 带 状 的 解 
释 。 售 车 使 用 确切 的 分 数 ， 应 说 明 这 些 分 数 不 是 精确 的 指标 ， 
而 是 我 们 对 某 人 真实 分 数 的 大 体 估计 。 

(6) 对 来 自 不 同 测验 的 分 数 不 能 直接 加 以 比较 。 即 使 两 个 
测验 名 称 相同 ， 由 于 所 包含 的 具体 内 容 不 同 (因而 所 测量 的 特 
质 不 完全 相同 )， 建 立 标 准 化 样本 的 组 成 不 同 ， 量 表 的 单位 
{如 标准 差 ) 不 同 ， 其 分 数 也 不 具备 可 比 性 。 如 来 自 两 个 智力 
测验 的 分 数 ， 在 没有 其 他 信息 的 情况 下 ， 我 们 无 法 判断 谁 高 
谁 低 。 

为 了 使 不 同 测验 分 数 可 以 比较 ， 必 须 将 二 者 放 在 统一 的 量 
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表 上 。 当 两 种 测验 取样 于 相同 范围 时 ， 人 们 常用 等 值 百 分 位 法 
将 两 种 测验 分 数 等 值 化 。 具 体 做 法 是 : 将 两 个 测验 都 对 同一 个 
样本 进行 施 测 ， 并 把 两 种 测验 的 原始 分 数 都 转换 成 百 分 等 级 ， 
然后 用 该 百 分 等 级 作为 中 转 点 ， 就 可 以 做 出 一 个 等 价 的 原始 分 
数 表 。 如 果 某 人 在 测验 A 中 原始 分 数 55 是 90 百 分 等 级 ， 而 
测验 B 中 原始 分 数 36 也 是 90 百 分 等 级 ， 那 么 他 在 测验 & 获 
得 的 55 分 就 与 在 测验 B 获得 的 36 分 等 值 。( 详 见 第 九 章 ) 


(二 》 如 何 向 受 测 者 报告 测验 分 数 

如 何 向 当事人 及 与 当事人 有 关 的 人 员 (如 家 长 、 教 师 、 雇 
主 等 ) 报告 测验 分 数 ， 使 他 们 更 好 地 理解 分 数 的 意义 是 一 件 非 
常 重要 的 事 。 下 面 所 列举 的 一 些 原则 ， 可 供 报告 测验 分 数 时 作 
参考 。 

(1) 使 用 当事人 所 理解 的 语言 。 测 验 像 其 他 特殊 领域 一 
样 ， 具 有 自己 的 词汇 ， 因 此 你 所 理解 的 词 并 不 意味 着 当事人 也 
一 定理 解 。 例 如 ， 你 懂得 标准 差 和 标准 分 数 ， 然 而 当事人 可 能 
不 仅 。 因 此 你 必须 用 非 技术 性 的 用 语 来 解释 标准 分 数 ， 可 以 把 
它 解释 成 相对 位 置 〔 即 百 分 等 级 )。 必 要 时 可 以 问 问 当事人 是 
和 否 听 懂 ， 让 他 说 说 你 的 解释 是 什么 意思 。 

(2) 要 保证 当事人 知道 这 个 测验 测量 或 预测 什么 ， 这 里 并 
不 需要 作 详 细 的 技术 性 解释 。 例 如 你 并 不 需要 向 当事人 解释 职 
业 兴 趣 ， 并 将 他 与 从 事 各 种 职业 的 人 加 以 比较 ， 如 果 在 某 一 方 
面 得 了 高 分 ， 就 意味 着 如 果 他 参加 这 个 工作 可 以 长 期 于 下 去 。 
但 也 不 能 过 于 简单 ， 只 告诉 当事人 某 个 量 表 的 题目 或 测量 什么 
是 不 够 的 ， 这 在 具有 情绪 色彩 的 人 格 特征 测量 方面 特别 重要 。 
例如 ， 对 人 格 测验 中 的 男性 化 、 女 性 化 量 表 就 要 加 以 解释 ， 以 
免 亚 测 者 误解 。 

(3) 如 果 分 数 是 以 常 模 为 参考 的 ， 就 要 使 当事人 知道 他 是 
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和 什么 团体 在 进行 比较 。 例 如 ， 同 一 个 百 分 等 级 对 于 普通 学 校 
和 重点 学 校 其 意义 是 不 同 的 。 

(4) 要 使 当事人 认识 到 分 数 只 是 一 个 估计 。 由 于 测验 的 信 
度 、 效 度 不 足 ， 分 数 可 能 有 误差 ,而 且 对 于 一 个 团体 总 体 来 说 
有 效 的 测验 ， 不 一 定 对 每 个 人 都 同样 有 效 ， 但 也 不 能 让 受 测 者 
感到 分 数 是 毫 不 足 信 的 。 

(5) 要 使 当事人 知道 如 何 运用 他 的 分 数 。 当 测验 用 于 人 员 
选拔 和 安置 问题 时 这 点 是 特别 重要 的 。 要 向 当事人 讲 清 测验 分 
数 在 作 决 定 过 程 中 起 什么 作用 ， 是 完全 由 分 数 决定 取舍 ， 还 是 
只 把 分 数 作为 参考 ， 有 没有 规定 最 低 分 数 线 ; 测验 上 的 低 分 数 
能 否 由 其 他 方面 补偿 等 等 。 

(6) 要 考虑 测验 分 数 将 给 受 测 者 带 来 什么 影响 。 由 于 对 分 
数 的 解释 会 影响 受 测 者 的 自我 认识 、 自 我 体验 和 自我 评价 ， 所 
以 在 解释 分 数 时 要 把 对 分 数 意义 的 解释 和 必要 的 咨询 工作 结合 
起 来 ， 以 免 受 测 者 因 分 数 不 理想 而 造成 自卑 心理 。 

(7) 测验 结果 应 向 无 关 的 人 员 保密 。 当 事 人 的 测验 分 数 不 
应 让 其 他 无 关 的 人 员 知 道 ， 以 免 对 当事人 造成 不 良 的 影响 。 因 
此 ， 分 数 的 报告 采用 个 人 的 解释 为 宜 ， 不 宜 采 用 团体 解释 或 公 
告 通知 的 方式 行 之 。 

(8) 对 低 分 者 的 解释 应 谨慎 小 心 。 在 测验 上 获得 低 分 数 者 
或 分 数 不 理 想 者 易 有 自卑 或 自我 贬抑 的 心理 产生 。 因 此 ， 对 这 
些 当 事 人 报告 测验 分 数 时 ， 态 度 要 诚 展 ， 措 词 要 委婉 ， 洲 免 作 
直接 了 当 的 和 解释。 例如， 智力 测验 得 到 IQ65 者 ， 勿 作 这 样 的 
解释 :“ 你 属于 智力 缺陷 者 。” 较 理想 的 解释 应 是 , “这 个 分 数 
表示 你 的 学 习 能 力 比 一 般 人 低 了 一 点 ， 但 是 有 些 像 你 这 种 能 力 
的 人 ， 由 于 刻苦 努力 而 有 很 不 错 的 表现 。” 

(9) 报告 测验 分 数 时 应 设法 了 解 当事人 的 心理 感受 ， 并 采 
取 适 当 的 措施 加 以 引导 。 报 告 测验 分 数 时 ， 宜 先 让 当事人 充分 
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天 达 测 验 时 的 心理 感受 ， 如 他 的 动机 、 态 度 、 情 绪 、 注 意 、 健 
康 等 ， 以 便 知 道 他 的 测验 分 数 是 否 代表 在 最 佳 的 情况 下 所 作 的 
反应 。 例 如 ， 某 学 生 表示 他 在 做 智力 测验 时 情绪 很 恶劣 、 心 不 
在 大; 而 另 一 位 则 表示 他 在 艇 测验 时 ， 动 机 强烈 、 注 意 力 集 
中 。 虽 然 两 位 学 生得 到 相同 的 1Q 为 115, 但 代表 的 意义 可 能 
过 然 不 同 。 

同样 的 ， 解 释 完 分 数 后 宣 鼓励 当事人 表达 对 测验 结果 的 感 
受 ， 如 发 现 当 事 人 对 分 数 有 误解 或 不 良 态度 ， 应 立即 配 以 咨 
询 ， 予 以 适当 的 引导 ， 以 免 给 当事人 造成 自卑 心理 或 其 它 不 良 
影响 。 


练习 与 思考 


. 结合 实例 简 述 编制 一 个 心理 测验 的 基本 程序 。 
. 阐述 实施 心理 测验 应 注意 的 向 题 。 

. 如 何 正确 解释 测验 分 数 的 意义 。 

. 论述 向 当事人 报告 满 验 分 数 的 基本 原则 。 
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第 九 章 ， 测 验 等 值 


本 章 提要 : 

@ 测 验 等 值 的 实质 

@ 测 验 等 值 的 条 件 

人 @ 测 验 等 值 的 基本 计算 方法 
全 常用 等 值 设计 

仿 测 验 等 值 误差 舍 计 
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第 一 节 ”测验 等 值 概述 


一 、 测 验 等 值 来 源 于 测量 实践 的 需要 


在 心理 与 教育 测量 实践 中 ， 经 常 遇 到 一 个 测验 需要 配备 多 
个 测验 形式 的 情况 ， 特 别 是 那些 测验 内 容易 受 记 亿 或 易 受 针对 
性 训练 影响 的 测验 ， 在 测验 之 前 需 严 格 保密 ， 测 验 之 后 不 能 再 
用 ， 必 须 配备 多 个 不 同形 式 供 不 同 次 施 测 所 用 。 对 于 这 种 情 
况 ， 测 验 编制 者 显然 希望 这 些 不 同形 式 应 该 是 “相等 ”的 ， 也 
就 是 说 ， 如 果 是 对 同一 个 被 试 ， 各 个 不 同形 式 所 测 结果 应 该 是 
完全 一 样 的 。 为 达 此 目的 ， 测 验 编制 者 做 了 许多 努力 ， 但 在 实 
际 施 测 后 ， 不 同形 式 之 间 的 差异 依然 存在 ， 这 就 会 引起 评价 的 
不 公 。 这 种 现象 在 需要 对 参加 不 同形 式 施 测 的 被 试 作 统 一 评价 
时 就 会 造成 一 些 明显 的 失误 。 上 比如 我 国 的 高 等 教育 自学 考试 ， 
同 -~ 专业 ， 同 一 学 科 年 年 施 测 ， 对 考生 的 评价 主要 是 区 分 及 格 
还 是 不 及 格 ， 其 形式 就 是 上 不 上 60 分 。 如 果 各 年 所 用 形式 之 
、 间 不 相等 ， 就 可 能 出 现 许多 误 判 ， 或 者 把 及 格 学 生 判 成 不 及 
格 , 或 者 把 不 及 格 学 生 判 成 了 及 格 。 这 对 考生 来 说 是 不 公正 ， 
对 社会 来 说 是 无 信誉 。 避 免 这 种 失误 的 一 条 途径 是 寻找 到 不 同 
测验 形式 之 间 分 数 的 转换 关系 ， 把 所 有 不 同形 式 测验 的 分 数 都 
转换 到 同一 个 分 数 系统 上 ， 就 不 再 会 出 现 上 述 不 公正 现象 了 。 
测量 学 上 把 为 达到 这 一 目的 而 发 展 起 来 的 一 套 专 门 技术 称 为 测 
验 等 值 (Test Equating)。 测 验 等 值 在 国外 已 经 有 了 许多 成 功 
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的 应 用 ， 国 内， 在 诸如 高 考 这 一 类 大 规模 正式 考试 中 的 研究 与 
应 用 也 已 起 步 。 





二 、 测 验 等 值 的 实质 


”从 本 质 上 来 说 ,测验 等 值 就 是 通过 对 考核 同一 种 心理 品质 
的 多 个 测验 形式 作出 测量 分 数 系统 的 转换 ， 进 而 使 得 这 些 不 同 
测验 形式 的 测验 分 数 之 间 具 有 可 比 性 。 在 实际 操作 中 ， 测 验 等 
值 可 使 各 个 不 同形 式 的 测验 分 数 均 对 应 起 来 ， 测 验 主持 者 可 以 
任意 指定 其 中 的 一 个 分 数 形 式 作为 基准 ， 而 使 所 有 其 它 形式 的 
分 数 都 转化 到 这 个 基准 形式 上 。 比 如， 经 过 等 值 计 算 ，B 测验 
形式 的 85 分 对 应 于 A 测验 形式 的 82 分 ，C 测验 形式 的 80 分 
也 对 应 A 测验 形式 的 82 分 ，A、B、C 三 种 形式 施 测 结果 均 可 
以 A 形式 分 数 报告 ， 即 参加 A 测验 形式 得 82 分 ,参加 B 测验 
形式 得 85 分 ， 参 加 C 测验 形式 得 80 分 的 3 个 被 试 ， 均 可 报告 
他 们 在 该 测验 上 得 分 为 82。 因 为 所 测 3 个 被 试 的 水 平 是 一 样 
的 ， 而 在 不 同形 式 上 的 施 测 分 数 的 差异 ， 仅 是 由 于 命题 难度 把 
握 不 稳 引 起 的 表现 形式 差异 。 也 可 以 认为 ， 如 果 一 个 被 试 在 A 
测验 形式 上 得 分 82， 则 参加 8 测验 形式 他 将 得 85 分 ， 参 加 C 
形式 他 将 得 80 分 。 

测验 等 值 中 所 说 的 测量 分 数 系统 的 转换 与 测验 原始 分 数 与 
导出 分 数 之 间 的 转换 是 不 相同 的 。 等 值 转换 的 目的 是 为 了 比较 
两 个 不 同 测验 形式 之 间 的 实测 分 数 ， 导 出 分 数 转换 是 为 了 将 一 
个 实测 分 数 转换 到 一 个 可 评价 个 体 相对 位 置 的 分 数 系统 上 去 。 
等 值 转换 是 两 个 或 多 个 不 同 测验 形式 分 数 系统 的 转换 ， 导 出 分 
数 转换 是 一 个 测验 形式 不 同 分 数 系统 的 转换 ， 两 者 之 间 是 有 本 
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质 差 异 的 。 

寻找 测验 等 值 关系 与 寻找 两 测验 之 间 预 测 关 系 也 是 不 相同 
的 。 测 验 等 值 关系 是 测 重 同一 种 心理 品质 的 多 个 不 同 测验 形 
式 、 测 验 分 数 之 间 的 转换 关系 ， 各 个 形式 之 间 处 于 平等 的 地 
位 。 而 预测 关系 两 测验 可 以 是 测 同 种 心理 品质 ， 也 可 以 是 测 相 
近 的 甚至 是 不 同 的 心理 品质 ， 预 测 源 与 预测 目标 之 间 的 关系 是 
不 平等 的 ， 两 者 之 间 不 是 分 数 转换 关系 ， 它 只 能 是 从 预测 源 的 
测试 出 发 来 预 估 预测 目标 的 水 平 。 


三 、 测 验 等 值 的 条 件 


在 两 个 不 同形 式 的 测验 之 间 进 行 测验 等 值 是 必须 具备 一 定 
条 件 的 。 测 量 学 所 提出 的 测验 等 值 的 条 件 主 要 有 以 下 几 个 
方面 : 

(1) 同 质 性 。 被 等 值 的 不 同 测验 形式 所 测 的 必须 是 同一 种 
心理 品质 ， 测 验 的 内 容 与 范 留 也 应 该 基本 相同 。 不 是 测 同 一 种 
心理 品质 的 测验 是 不 能 被 等 值 的 。 

《2) 等 信 度 。 被 等 值 的 不 同 测验 形式 必须 有 相等 的 测验 信 
度 。 不 能 指望 一 个 低 信 和 度 的 测验 通过 与 一 个 商 信 和 度 测验 等 值 而 
提高 自身 的 可 靠 性 。 

(3) 公平 性 。 公 平 性 是 指 : 考生 参加 被 等 值 的 不 同 测验 形 
式 中 的 任 一 个 的 测试 ， 等 值 后 的 结果 都 是 一 样 的 ， 不 能 出 现 参 
加 不 同形 式 的 测试 等 值 后 的 结果 有 高 有 低 的 现象 。 

(4) 可 递 推 住 。 如 果 测 验 x 与 测验 y 之 间 有 等 值 转换 关系 
f (x) =y， 测 验 y 与 测验 z 之 间 有 等 值 转换 关系 g (y) =z， 
那么 一 定 有 测验 x 与 测验 z 之 间 的 关系 h 存在 , h (x) =g (f 
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(x)) = ze 这 种 递 推 关 系 还 可 以 推 至 更 多 的 已 等 值 的 测验 形 
式 。 如 果 这 种 递 推 关系 不 存在 ， 或 者 不 同 途径 递 推 的 结果 不 相 
同 ， 那么 这 些 测 验 形式 中 必 有 不 等 值 的 形式 存在 。 

《5) 对 称 性 。 对 两 个 待 等 值 的 测验 形式 x 与 y， 无 论 等 值 
转换 从 哪个 测验 出 发 ， 所 获得 的 等 值 对 应 关系 是 相同 的 ， 即 如 
果 从 形式 x 出 发 ， 获 得 等 值 关系 f (x) =y; 从 形式 y 出 发 ， 
获得 等 值 关系 g (y) = x， 则 一 定 有 f=g-!， 也 就 是 说 , {与 g 
一 定 是 互 逆 的 关系 。 

(6) 样本 不 变性 。 测 验 x 与 测验 y 的 等 值 关系 是 由 x 与 y 
的 本 身 内 在 性 质 决定 的 ， 与 为 寻找 这 种 等 值 关系 而 采集 数据 时 
所 使 用 的 样本 没有 关系 ， 也 与 采集 数据 时 测验 的 情境 没有 关 
系 。 如 果 测 验 等 值 关系 会 受到 测试 样本 的 影响 而 变化 ， 则 所 寻 
获 的 测验 等 值 关系 是 虚假 的 。 

上 述 测验 等 值 的 6 个 条 件 ， 也 有 学 老将 前 4 条 合 称 为 公平 
性 。 在 测验 等 值 处 理 中 ， 如 果 待 等 值 测验 能 完全 符合 上 述 6 个 
条 件 ， 则 等 值 的 结果 将 令 人 满意 。 但 在 实际 研究 中 ， 可 能 会 有 
个 别 的 条 件 得 不 到 满足 ， 但 并 不 完全 否定 等 值 的 结果 。 比 如 ， 
当 测 验 形式 要 等 信和 度 的 条 件 不 满足 时 ， 在 有 些 研究 测验 等 值 技 
术 的 专门 文献 中 往往 会 给 出 另外 一 些 补救 的 计算 方法 。 但 严格 
讲 , 这 种 方法 已 不 能 称 为 测验 等 值 而 被 称 为 “测验 校准 ” 
《Test Calibration) 。 





四 、 测 验 等 值 的 一 些 基 本 概念 


测验 等 值 是 一 项 综合 性 的 测验 统计 分 析 技 术 ， 牵 涉 到 测验 
理论 的 许多 方面 ， 也 形成 了 许多 专用 基本 概念 ， 有 些 概念 还 党 
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常 成 对 出 现 ， 为 便于 准确 理解 和 应 用 ， 在 此 作 一 些 介绍 。 

1 经典 理 论 等 人 与 项 目 反 应 理论 等 信 

两 种 等 值 的 区 别 在 于 等 值 时 以 何 种 测验 理论 作 指 导 。 本 章 
所 介绍 的 等 值 方法 均 是 在 经 典 油 验 理论 指导 下 的 等 值 方法 ， 这 
与 本 书 的 整体 体系 是 一 致 的 。 但 有 研究 者 指出 ， 应 用 经 典 理论 
等 值 ， 不 满足 等 什 条 件 的 情况 要 更 多 一 些 ， 而 应 用 项 目 反 应 理 
论 等 值 ， 在 等 值 条 件 方面 会 有 较 大 的 改善 ， 从 而 使 得 等 值 的 结 
果 更 为 准确 。 

2. 测验 分 数 等 信号 项 目 参数 等 人 

这 是 根据 测验 等 值 的 直接 操作 对 象 不 同 而 构成 的 一 对 概 
念 。 如 果 等 值 的 直接 操作 对 象 是 测验 的 原始 分 数 ， 结 果 是 直接 
找到 两 测验 分 数 的 转换 关系 ， 称 为 测验 分 数 等 值 。 如 果 等 值 的 
直接 操作 对 象 是 测验 项 目 参 数 ， 找 到 的 等 值 转换 关系 是 两 测验 
项 目 参 数 之 间 的 转换 关系 ， 旭 称 其 为 项 目 参 数 等 值 。 项 目 参数 
等 值 可 以 是 次 极目 的 ， 但 更 多 的 是 中 间 目 的 ， 在 项 目 参数 等 值 
的 基础 上 可 以 进 -- 步 找到 测验 分 数 的 转换 关系 。 为 区 别 起 见 还 
是 称 其 为 项 目 参 数 等 值 。 项 目 参 数 等 值 看 上 去 似乎 多 了 一 道 手 
续 ， 实 际 上 却 很 有 用 ， 特 别 是 用 于 大 型 题库 建设 。 利 用 项 目 参 
数 等 值 可 以 把 不 同 批 次 采集 计算 的 项 目 参 数 ， 确 定 在 一 个 统一 
的 度量 系统 上 ， 所 有 项 目 合 并 成 一 个 大 型 题库 。 从 这 样 的 题库 
中 抽 题 组 成 的 不 同 试卷 进行 测试 ， 可 获得 一 致 的 评价 结果 ， 不 
必 再 进行 等 值 计算 。 借 助 于 项 目 参 数 等 值 而 实现 分 数 等 值 ， 其 
精度 不 比 原始 分 数 直接 等 值 低 。 但 必须 指出 的 是 ， 项 目 参 数 等 
值 只 有 在 项 目 反 应 理论 的 指导 下 才能 进行 。 

3. 水 平等 信 写 季 丰 等 人 

这 是 根据 测验 试卷 的 难度 和 被 试 能 力 分 布 是 否 有 差异 而 区 
分 的 一 对 概念 。 如 果 被 等 值 的 两 测验 形式 有 大 体 相同 的 难度 水 
平 ， 接 受 测验 的 两 考生 团体 的 能 力 分 布 也 类 似 ， 这 样 两 个 测验 
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形式 之 间 的 等 值 称 为 水 平等 值 。 如 果 两 测验 形式 的 难度 水 平 有 
明显 差异 ， 考 生 团体 的 能 力 水 平 也 不 相同 ， 两 个 测验 形式 的 等 
值 称 为 垂直 等 值 。 显 然 ， 垂 直 等 值 的 情况 更 为 复杂 一 些 ， 本 书 
主要 介绍 的 是 水 平等 值 的 情况 。 

除了 上 述 成 对 概念 之 外 ， 测 验 等 值 中 还 有 一 些 专用 技术 
名 词 。 

1 测验 入 设计 

为 了 寻找 不 同 测验 形式 之 间 的 等 值 关系 而 预先 对 数据 的 采 
集 方法 、 等 值 实现 的 途径 、 等 值 的 计算 方法 进行 周密 的 设计 ， 
称 为 测验 等 值 设 计 。 在 实际 工作 中 ， 并 不 是 任何 两 个 测验 形式 
的 原始 数据 都 能 用 来 进行 等 值 计 算 的 ， 两 个 测验 形式 分 别 施用 
于 两 个 无 关 和 群体 所 获得 的 测验 数据 ， 就 无 法 寻找 到 两 形式 之 间 
的 等 值 关 系 ， 因 此 在 等 值 开 始 之 时 ， 就 必须 和 做 好 等 值 设 计 工 
作 。 在 作 等 值 设 计时 涡 要 统筹 考虑 的 问题 包括 : 采用 什么 理论 
作 指 导 、 直 接 进 行 原 始 分 数 等 值 还 是 进行 项 目 参 数 等 值 、 等 值 
数据 如 何 采 集 、 被 试 如 何 抽取 、 两 测验 形式 之 间 以 什么 方法 相 
关联 、 采 集 的 数据 用 什么 方法 计算 他 们 的 等 值 关系 等 等 。 等 值 
设计 获得 越 科学 ， 等 值 的 效果 就 越 好 。 

2. 销 (Anchor) 测验 

在 测验 等 值 设计 中 ， 有 时 会 采用 一 组 测验 试题 来 关联 两 个 
待 等 值 的 测验 形式 ， 以 便 寻 找 两 形式 的 等 值 关 系 ， 这 些 测验 试 
题 被 称 作为 锚 测 验 。 错 测验 在 采集 等 值 数 据 时 ， 必 须 分 别 伴 同 
两 个 待 等 值 的 测验 形式 向 不 同 被 试 群体 施 测 。 锁 测验 可 以 艇 在 
原 测验 试卷 中 施 测 ， 也 可 以 单独 成 卷 与 原 测 验 分 开 施 测 。 销 测 
验 是 圣人 试卷 还 是 独立 成 卷 要 视 数 据 采 集 的 条 件 而 决定 ， 但 不 
管 施 测 形式 如 何 ， 所 起 的 作用 是 一 样 的 。 对 于 锚 测 验 也 是 有 一 
定 要 求 的 : 锚 测 验 也 应 与 原 测 验 一 样 测 同 种 心理 品质 ， 销 测验 
也 应 与 原 测验 有 相同 的 测验 信和 度 ， 锚 测验 的 长 度 一 般 不 应 小 于 
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原 测 验 的 1/5， 理 论 上 锚 测 验 是 越 长 越 好 ， 但 不 应 造成 被 试 的 





测验 等 值 采 集 的 数据 来 自 于 对 样本 群体 的 实测 。 由 于 条 件 
限制 ， 样 本 不 可 能 很 大 ， 因 此 因此 数据 的 稳定 性 不 可 能 很 理 
想 ， 表 现在 分 数 分 布 中 就 是 分 布 曲 线 的 光滑 性 很 差 ， 特 别 是 在 
分 布 的 两 端 ， 由 于 被 试 的 量 少 而 使 曲线 波动 较 大 《参见 附 图 
9.1.A)。 这 对 于 要 使 用 分 数 分 布 进行 等 值 的 计算 影响 很 大 ， 
因此 有 必要 对 这 种 样本 分 布 作 一 些 技术 处 理 ， 使 得 分 布 曲线 趋 
向 于 比较 光滑 ， 统 计 上 把 这 种 技术 称 为 数据 平滑 法 。 数 据 平 滑 
的 方法 很 多 ， 测 验 等 值 中 所 用 的 数据 平滑 法 中 比较 实用 的 有 两 
种 ,一 种 叫 对 数 线性 平滑 模式 ， 一 种 则 8 二 项 式 平滑 模式 。 这 
两 种 方法 的 应 用 均 要 涉及 到 一 些 较 复杂 的 数学 知识 ,我们 在 这 
里 不 作 介 绍 ， 有 兴趣 的 读者 可 以 参阅 相关 文献 。 附 图 9.1.B 
是 9.1.A 经 过 平滑 处 理 后 的 分 布 曲线 。 


f 


A 平滑 之 前 
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B 平滑 之 后 


附 图 9.1 数据 平滑 示意 图 

4. 等 什 标 准 误差 

测验 等 值 的 任何 方法 都 要 通过 采集 样本 数据 而 完成 计算 
等 值 的 结果 肯定 会 受到 抽样 的 影响 而 产生 误差 ,测量 学 把 由 抽 
样 而 引起 的 等 值 误差 称 作 等 值 标准 误差 。 等 值 标准 误差 是 可 以 
用 一 定 方法 估计 的 ， 各 种 不 同 的 等 值 方法 有 不 同 的 等 值 标准 误 
差 的 估计 方法 。 测 验 等 值 标准 误差 是 一 个 变量 ， 随 等 值 分 数 的 
大 小 而 变 ， 其 总 趋势 是 等 值 分 数 越 趋 于 分 布 的 两 端 ， 等 值 的 标 
准 误差 就 越 大 。 

5. 等 值 偏差 (Bias) 

在 测验 等 值 中 除了 抽样 引起 等 值 误 差 之 外 ， 等 值 处 理 方法 
不 当 也 会 引起 等 值 误 差 , 测量 学 上 把 这 种 等 值 误 差 称 为 偏差 。 
比如 说 ， 车 是 分 别 参 加 两 测验 形式 测试 的 两 个 被 试 群体 是 两 个 
能 力 有 差异 的 独立 群体 ,但 被 当成 随机 分 组 或 等 组 处 理 ， 则 等 
值 结 果 就 会 产生 偏差 。 在 测验 等 值 中 ,抽样 引 起 的 等 值 标准 误 
差 与 处 理 方法 不 当 引 起 的 等 值 偏差 常 构成 一 对 矛盾 。 引 如 在 刚 
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才 所 举 的 例子 中 ,为 防止 两 被 试 群体 能 力 不 等 而 引起 等 值 偏 
差 ， 就 必须 增加 锁 测验 测试 ， 以 估计 能 力 差 异 大 小 ， 从 而 纠正 
等 值 偏差 。 但 增加 了 锚 测 验 又 会 增 大 抽样 测试 造成 的 误差 ， 故 
需要 研究 者 统筹 考虑 . 


五 、 测 验 等 值 结 果 的 表示 方法 


测验 等 值 的 结果 是 两 个 不 同 测验 形式 分 数 或 项 目 参数 间 的 
转换 关系 ， 它 的 表示 方法 有 3 种 。 

第 一 种 是 表 列 法 。 将 两 形式 对 应 相等 的 分 数 相对 应 排列 成 
表 ， 如 附 表 9.2 与 9.3 中 所 列 。 表 列 法 简单 明了 ， 查 找 方便 ， 
是 应 用 最 普遍 的 等 值 结果 表示 方法 。 





20 40 60 80 100 120 140 
” 附 图 9.2 x 与 y 等 值 对 应 图 


第 二 种 是 公式 法 。 用 于 一 些 公 式 计 算 而 获得 的 等 值 结 果 - 
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常见 的 等 值 结果 公式 形式 为 y= Ax+B， 其 中 A 与 B 为 等 值 常 
数 ， 式 中 x 与 y 是 处 于 平等 地 位 的 。 用 公式 表示 等 值 结果 简 
明 、 方便 、 等 值 关系 清晰 。 但 并 不 是 所 有 的 等 值 结果 都 能 用 公 
式 表示 的 ,而 且 公式 法 对 于 具体 分 数 的 配对 还 有 一 步 计算 
要 和 做。 

第 三 种 是 图 示 法 。 如 附 图 9.2 所 示 ， 应 用 此 图 可 以 查找 任 
一 对 等 值 的 x 与 y。 

分 数 图 示 法 形象 生动 地 揭示 了 两 测验 分 数 间 的 等 值 转换 关 
系 ， 不 受 等 值 计算 方法 的 限制 。 但 图 示 法 表示 的 对 应 关系 精度 
有 限 ， 因 此 多 四 于 对 等 值 关系 的 整体 分 析 。 





第 二 节 “测验 等 值 计算 的 基本 方法 


在 经 典 测验 理论 指导 下 ， 测 验 等 值 的 计算 方法 主要 可 以 分 
为 两 大 类 ， 一 类 叫 等 百 分 位 等 值 法 ， 一 类 叫 线性 等 值 法 。 同 一 
种 等 值 数据 采集 模式 既 可 用 等 百 分 位 等 值 方法 计算 ， 也 可 以 用 
线性 等 信 方 法 计算 。 无 论 是 等 百 分 位 等 值 计算 方 法 还 是 线性 等 
值 计算 方 法 随 着 数据 采集 模式 的 不 同 ， 具 体 的 计算 途径 和 公式 
也 会 有 所 不 同 。 总 的 趋势 是 数据 模式 越 复杂 ， 计 算 途 径 和 公式 
也 就 越 复杂 。 但 无 论 计算 的 具体 途径 和 公式 有 什么 不 同 ， 凡 局 
于 等 百 分 位 等 值 计算 方法 的 或 是 属于 线性 等 值 计算 方法 的 ， 其 
计算 的 基本 原理 都 是 一 样 的 。 为 让 读者 对 这 两 种 等 值 计算 方法 
的 原理 有 所 了 解 ， 本 节 就 等 百 分 位 等 值 和 线性 等 值 两 类 计算 方 
法 各 介绍 些 具体 计算 途径 以 示 读 者 。 
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一 、 等 百 分 位 等 值 (Equipercentile Equating) 


等 百 分 位 等 值 依据 的 原理 是 : 两 个 分 数 ， 一 个 在 测验 形式 
x 上 ， 另 一 个 在 测验 形式 y 上 ， 如 果 这 两 个 分 数 对 于 任何 一 个 
被 试 群体 都 有 相同 的 百 分 等 级 ， 那 么 这 两 个 分 数 就 被 认为 是 等 
值 的 。 按 照 这 个 原理 ， 和 寻找 与 x 分 数 等 值 的 y 分 数 ， 只 要 找到 
与 x 分 数 有 相等 百 分 等 级 的 y 分 数 就 可 以 了 。 

等 下 分 位 等 值 的 关系 寻找 ， 可 以 通过 将 两 测验 名 目的 累积 
百 分 位 曲线 描绘 在 同一 直角 坐标 系 中 获得 〈 参 见 图 9.3)。 
中 的 xl 与 yl ，xa 与 y 就 是 成 对 的 等 值 分 数 。 这 种 方法 称 为 作 
图 法 ， 显 然 作 图 法 相对 要 粗糙 一 点 。 如 果 需 要 比较 糖 确 的 结 
果 ， 则 可 以 在 测验 分 数 分 布 中 应 用 百 分 等 级 计算 公式 求 出 与 x 
分 数 对 应 的 等 值 分 数 y。 我 们 用 一 例子 来 说 明 计算 过 程 。 





后 9] 分 数 
附 图 9.3 ”等 百 分 位 等 值 


例 9.1 在 某 种 等 值 设 计 之 下 采集 得 到 两 测验 的 分 数 、 并 
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编制 成 次 数 分 布 表 分 列 于 附 表 9.1 的 a 与 b,， 求 这 两 个 测验 的 
等 值 分 数 对 应 表 。 


附 表 9.1.a x 测验 分 布 附 昌 9.1.b y 测验 分 布 
分 组 f F 
85 ~89 8 290 
80~84 11 | 282 


75 ~ 79 18 | 271 
70~74 24 | 253 
65~69 32 | 229 
60~64 40 197 
55~59 45 157 
50~54 39 112 
45~49 28 73 
40~44 23 45 











35~39 16 | 22 
30 ~ 34 6 6 
合计 290 | 一 


解 : 第 一 步 ， 先 分 别 求 出 两 测验 分 数 的 向 上 累积 次 数 分 
布 ， 列 于 表 末 列 。 
第 二 步 ， 设 x= 60,， 在 a 表 中 求 其 百 分 等 级 。 
Fo+ [ {X—L,) *f/il 


_ 90+ [ (60-59.5) x39=5] 
ET x 100 


PR 100 


=31.0927 
:第 三 步 对 已 求 PR， 在 b 表 中 求 y 分 数 - 
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PR 
100xN- 下 ， 
y= Lb+ t ga 


10 x 290 — 73 
=49.5+ 35 x5 


=31.70 
重复 二 、 三 两 步 ， 对 所 给 出 的 任意 x 分 数 ， 都 可 求 出 与 之 
等 值 的 y 分 数 ， 我 们 将 部 分 等 值 对 应 分 数列 于 附 表 9.2 中 。 


附 表 9.2 等 百 分 位 等 值 对 应 表 


[olls Tol nl [ml] 
sslesl on snlsslasl ealns|as 
measlesa ounnls al nese 


( 解 毕 ) 







二 、 线 性 等 值 (Linear Rquating) 


线性 等 值 依据 的 原理 是 : 两 个 分 数 ， 一 个 在 测验 形式 x 

上 ， 而 另 一 个 在 测验 形式 y 上 ， 如 果 对 于 任何 一 个 被 试 群体 ， 

它们 各 自 的 标准 分 数 相等 ， 这 两 个 分 数 就 被 认为 是 等 值 的 。 线 

性 等 值 原理 如 果 用 数学 公式 表示 ， 所 谓 测验 分 数 x 等 值 于 测验 
分 数 yY， 即 有 下 式 成 立 : 

人 (9.1) 
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改写 式 9.1, 成 : 
y= Ax+B (9.2) 
其 中 A=S,/S. B=y-AxX 
如 果 能 求 出 参数 A 与 B， 则 对 于 测验 x 的 任 一 分 数 均 可 利 
用 式 9.2 求 到 与 之 等 人 的 y 分 数 。 这 里 的 A 和 B 被 称 为 等 什 
常数 。 在 线性 等 值 中 ， 两 测验 的 等 值 关系 为 一 直线 ，A 是 直线 
斜率 ，B 是 直线 截 距 。 所 有 的 线性 等 值 最 终 形式 都 是 式 9.2 的 
形式 ， 只 是 在 不 冶 的 等 值 设计 下 A 与 B 的 求法 不 同 罢 了 ， 此 
处 列 出 的 是 最 简单 的 计算 A 与 B 的 方法 。 
我 们 用 线性 等 值 法 来 求 例 9.1 提供 的 两 测验 分 数 分 布 的 等 
值 对 应 关系 。 
解 : 第 一 步 ; 求 出 x 测验 分 布 的 平均 数 与 标准 差 
X=66.44 S$,.= 12.98 
第 二 步 : 求 出 y 测验 分 布 的 平均 数 与 标准 差 。 
y=58.60 ~ $,=13.05 
第 三 步 : 求 出 等 值 常数 A 与 B。 
A = SYS.= 19% =1.0054 
B =5- A'xX 
” =58.60-1.0054x66.44 
= -8.1988 
第 四 步 : 写 出 等 值 转换 公式 。 
y=1.0054x -8.1988 
对 于 给 定 的 x， 可 用 转换 公式 求 出 与 之 等 值 的 y 分 数 ， 我 


们 将 部 分 x 的 对 应 值 求 出 列 于 附 表 9.3 中 。 
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附 表 9.3 ”线性 等 值 对 应 表 


[ells [lll [ml 
rv va sn tr 2 27 2 


( 解 毕 ) 

等 百 分 位 等 值 和 线性 等 值 是 两 种 主要 的 等 值 计算 方法 ， 本 
节 所 介绍 的 都 是 两 种 计算 方法 中 最 简单 的 情况 。 在 等 百 分 位 等 
值 计 算 中 ， 如 果 两 个 测验 分 数 的 分 布 形态 相同 ， 那 么 两 测验 形 
式 的 分 数 等 值 关 系 形成 一 条 直线 ， 此 时 的 等 值 结果 与 线性 等 值 
的 结果 是 一 致 的 。 但 在 大 多 数 的 情况 下 ， 两 测验 分 数 用 等 百 分 
位 等 值 求 得 的 等 值 关系 是 非 线性 的 。 在 实际 应 用 中 等 百 分 位 等 
值 与 线性 等 值 的 效果 哪个 更 好 要 视 具体 的 等 值 条 件 而 论 ， 很 难 
作出 绝对 的 结论 。 














第 三 节 ”常用 测验 等 值 设计 介绍 


。 设 计 一 ”随机 分 组 一 一 每 组 实施 一 个 测验 

对 于 两 个 待 等 值 的 测验 形式 x 与 y，x 与 了 应 测量 同一 种 
心理 品质 。 选 择 一 个 充分 异 质 的 被 减 群体 {， 将 其 随机 分 成 两 
个 被 坛 组 和 B，t=aU8B， 将 测验 x 施 测 于 被 试 组 a， 将 测验 
y 施 测 于 被 试 组 8。 这 样 采集 等 值 数 据 的 方法 称 为 随机 分 组 
一 一 每 组 实施 一 个 测验 的 设计 。 这 一 设计 在 两 测验 信和 度 相等 的 
条 件 下 有 两 种 等 值 计算 方法 。 
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1. 线性 等 值 法 

根据 标准 分 数 相等 两 原始 分 数 等 值 的 原理 ， 可 导出 以 下 等 
值 转换 公式 : 

y=Ax+B (9.3) 
A=S/S:s B= Ma-AM, 

其 中 M,.、S,. 为 测验 x 龙 测 于 被 试 组 a 的 平均 数 与 标准 差 ， 
加,s、S,p 为 测验 y 施 测 于 被 试 组 B 的 平均 数 与 标准 差 ， 转换 关 
系 为 一 条 直线 ，A 为 直线 斜率 ，B 为 截 距 。 

对 于 一 个 x 通 过 9.3 式 转换 而 得 的 y 值 常 记 为 y”， 以 便 
与 实测 值 相 区 别 。 转 换 值 y* 的 等 值 标准 误差 记 为 SE,' ， 标 准 
误 的 平方 可 由 下 式 近 似 计 算 : 


2. -~S2。( 工 :+ 工 17 
SEs* = Sy， (N+ Ns) (1+ FZx) (9.4) 


2. 等 百 分 位 等 值 法 
对 于 测验 x 的 每 一 个 分 数 ， 可 据 公 式 9.5 在 x 测验 分 布 中 
求 出 与 其 对 应 的 百 分 等 级 PR。 : 
i 
5 一 全 100 (9.5) 


然后 根据 所 求 PR 在 y 测验 分 布 中 用 9.6 式 求 出 对 应 的 y; 


PR 
~ XN 一 下 
pe F de (9.6) 
当然 也 可 以 用 前 节 所 说 的 描 图 法 求 出 各 对 等 值 分 数 ， 但 两 累积 
次 数 曲 线 应 尽量 修 勾 。 


在 本 设计 下 等 下 分 位 等 值 的 等 值 标准 误差 的 近似 计算 公式 
为 : 
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SE,- = [p.q (二 + 二) (») (9.7) 


其 中 p=Pr/100, q=1-p， f(y) 为 B 群 体 中 得 分 为 了 
的 人 次 数 比 。 
。 设 计 二 ” 跑 机 分 组 一 各 测验 对 每 组 都 实施 
对 于 待 等 值 的 两 个 测验 形式 x 和 了， 所 测 的 是 同一 种 心理 
品质 。 假 定形 式 x 先 油 对 y 后 测 的 影响 与 形式 y 先 测 对 x 后 测 
的 影响 是 相同 的 ， 选 择 一 个 尽量 异 质 的 被 试 团 体 t， 将 其 随机 
分 成 两 个 被 试 组 a 与 B， 对 被 试 组 a 先 施 测 x， 再 施 测 y， 对 被 
试 组 B 先 施 测 y， 再 施 测 x， 如 此 采集 数据 称 为 随机 分 组 一 一 
各 测验 对 每 组 都 实施 设计 。 如 果 两 测验 信 度 相等 ， 也 有 两 种 方 
法 可 进行 测验 等 值 计算 。 
1. 线性 等 值 法 
根据 标准 分 数 相 等 的 两 个 测验 原始 分 数 等 值 的 原理 ， 可 导 
出 以 下 线性 等 值 公式 : 
y=Ax+B 
A= V(S.+ Sa) / (Sx + Sxp) (9.8) 
= (Mya+ MyB) - 方 A (Mxa+ MxB) 
此 处 所 用 各 个 符号 的 意义 与 9.3 式 中 使 用 的 完全 一 样 。 对 
于 x 测验 的 每 一 个 分 数 ， 可 用 式 9.8 求 出 与 之 等 值 的 y 分 数 。 
在 这 一 转换 下 ，y "的 等 值 标准 误差 的 平方 值 为 ; 
人 Qt) t+2 (9.9) 
其 中 = 为 两 测验 的 积 差 相 关 ，Zu = (x - Ms) /Su，KNt= N。 
+ Na。 从 9.9 式 可 以 看 到 ， 此 设计 的 等 值 标准 误 受 两 测验 的 
相关 的 影响 较 显 著 ， 从 总 体 来 看 ， 此 设计 的 误差 比 设 计 一 的 要 
小 得 多 。 
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2. 等 百 分 位 等 值 法 

本 设计 采集 的 实际 资料 是 x 与 y 两 测验 分 别 对 整个 被 试 群 
体 + 的 测试 资料 。 分 组 的 目的 仅仅 是 将 两 测验 施 测 顺 序 的 影响 
加 以 平衡 。 实 施 的 结果 是 分 别 得 到 了 x 测验 和 y 测验 在 全 体 被 
试 施 测 的 次 数 分 布 。 注 意 这 里 的 两 个 次 数 分 布 完全 是 同一 批 被 
试 ， 因 而 有 理由 认为 两 百 分 等 级 相同 的 测验 分 数 是 等 值 的 。 计 
算 过 程 与 设计 一 的 计算 过 程 也 是 完全 一 样 的 。 等 值 标准 差 的 计 
算 由 于 被 试 量 的 扩大 而 变 小 ， 感 兴趣 的 读者 可 以 自行 推算 出 等 
值 标准 差 的 负 增 量 。 

。 设计 三 ”随机 分 组 一 一 每 组 各 实施 一 个 测验 ， 钳 测验 向 
每 组 实施 

设计 三 与 设计 一 相 比 ,增加 了 一 个 销 测验 向 每 个 被 试 组 实 
施 ， 其 目的 是 为 了 进一步 控制 两 组 被 试 的 等 价 性 ， 调 整 涯 机 抽 
样 后 两 组 被 试 之 间 可 能 存在 的 差异 。 若 记 错 测验 为 Y， 在 x 与 
y 两 测验 信 度 相等 的 条 件 下 ， 此 设计 可 用 线性 等 值 法 来 完成 等 
值 计 算 ， 公 式 如 下 : 


A= SS。 (9.10) 
8B= 商 ,一 A* 商 。 
上 式 中 商 ,,、$, 是 x 测验 向 全 体 被 试 施 测 时 的 平均 数 与 标准 差 
的 佑 计 值 ， 前 ,,、$, 是 y 测验 向 全 体 被 试 施 测 时 的 平均 数 与 标 . 
准 差 的 估计 值 。 因 为 x 与 y 都 未 真正 向 全 体 被 试 施 测 过 ， 因此 
这 四 项 均 只 是 估计 值 ， 估 计 公 式 如 下 : 
商 ，= Xe+bxo” (Mu Ma) 
$2, = 52, + bi。 (S% - Sre) 
蝎 y = Mya + bye" (Mu — M,e) 
$2, = S20 + by (St — Sse) 


{9.11) 
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其 中 b,, 为 在 群体 a 中 测验 x 对 测验 v 的 回归 系数 ，byw 为 在 群 
体 B 中 测验 y 对 测验 v 的 回归 系数 。 由 式 9.10 估 出 的 对 x 对 
应 的 等 值 分 数 y”， 其 等 值 标准 误 的 平方 值 为 : 
SE?* =2$2, (1 -7) 主人 . 
+ 理论 上 可 以 是 测验 x 与 * 或 测验 y 与 v 的 任意 一 个 相关 系数 ， 
实际 应 用 中 常 取 两 者 之 均值 。 
。 设 计 四 “ 非 随 机 分 组 
向 每 组 实施 
在 许多 高 度 保密 的 测验 中 ， 采 用 两 随机 分 组 分 别 接受 两 个 
测验 的 设计 会 有 许多 实施 上 的 困难 。 因 而 设计 四 将 其 修改 为 非 
随机 分 组 ， 即 允许 两 分 组 之 间 不 是 随机 相等 的 。 这 样 ， 即 使 两 
个 分 组 的 能 力 有 所 差异 ， 采 用 本 设计 同样 可 以 寻找 到 两 测验 的 
等 值 关 系 。 下 面 的 介绍 还 是 在 两 测验 信和 度 相 等 的 条 件 下 进行 。 
1. 线性 等 值 方法 
在 两 被 试 组 能 力 差异 不 大 的 情况 下 ， 线 性 等 值 的 计算 方法 
与 设计 三 中 所 使 用 方法 完全 相同 。 若 两 被 试 组 在 能 力 上 有 差 
异 ， 则 9.11 式 中 的 商 .，8， 训 ,，S, 改 由 下 式 估计 
Su" Vr， 
SS Vs 


后 S92 E03 
5 


Ta Ye 


(9.12) 





每 组 各 实施 一 个 测验 ， 销 测验 


阐 ,, = Mi。 (M, ~ Mo) 


(9.13) 
= Mop+ Xe Yae (Ma Me) 
BV Im 


Sz. 
$=9, + Ee (S% — Sa) 


其 中 ru，rw，rp 与 rp 均 为 测验 的 信和 度 。 估 出 上 述 四 值 之 
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后 ， 代 入 9.10 式 可 求 到 两 测验 的 等 值 关系 式 。 

2. 频数 估计 法 

频数 估计 法 (Frequency Estimation Method) 是 等 百 分 位 
等 值 的 一 种 ， 用 于 有 错 测 验 的 等 值 设 计 。 频 数 佑 计 法 的 关键 是 
要 利用 错 测 验 数据 分 别 估 出 测验 x 和 测验 y 在 合成 被 试 群体 t 
上 的 次 数 分 布 。 获 得 了 两 测验 的 次 数 分 布 就 可 用 设计 一 所 提供 
的 等 百 分 位 等 值 方法 求 出 测验 x 与 测验 y 的 等 值 对 应 关系 了 。 

估计 x 测验 和 y 测验 在 合成 总 体 t 上 的 次 数 分 布 的 方法 是 
一 样 的 ,我们 以 估计 合成 总 体 在 x 测验 上 的 次 数 分 布 为 例 来 演 
示 这 一 方法 。 

设 < 被 试 组 参加 了 测验 x 和 错 测 验 Y 的 施 测 ， 其 在 两 测 
验 上 的 联合 次 数 分 布 如 附 图 9.4 表 一 所 列 。B 被 试 组 只 参加 了 
VY 测验 施 测 而 没有 参加 x 的 施 测 。 因 此 只 有 在 V 测验 上 的 次 
数 分 布 是 已 知 的 《参见 附 图 9.4 表 二 ”中 的 最 右 列 )， 我 们 的 


9.4 表 一 a 被 试 组 在 x 与 vx 上 的 联合 分 布 f 
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第 一 项 任务 是 完成 表 二 中 联合 分 布 的 估计 。 估 计 的 思路 是 : 若 
a 组 在 V 测验 上 有 人 得 i 分 , B 组 在 V 测验 上 有 g. 人 得 i 分 ， 
由 于 这 两 部 分 人 在 V 测验 上 得 分 相等 ， 因 此 认为 这 两 部 分 人 
在 x 测验 上 也 应 有 相同 的 得 分 分 布 。 即 : 若 a 组 中 在 V 测验 
上 得 i 分 的 和. 人 中 有 三 人 在 x 测 验 上 得 了 j 分 ， 那 么 就 认为 8 
组 中 在 Y 测验 上 得 ;分 的 名. 人 中 应 有 区 = 和 @，… 各 /8. 人 在 x 测 
验 上 得 j 分 。 比 如 ，B 组 在 Y 测验 上 得 2 分 ， 在 x 测 验 上 得 4 
分 的 被 试 人 数 估计 值 gx = gz. .fa/B. =6x1+4=1.5。 根 据 这 
一 思路 ， 我 们 可 估 出 表 二 中 的 所 有 g;， 进 而 纵向 累计 成 B 组 答 
试 在 x 测验 上 的 次 数 分 布 ( 附 图 9.4 表 二 末 行 )。 第 二 项 任务 
就 是 把 a 组 在 x 测验 上 的 分 布 (实测) 与 B 组 在 x 测验 上 的 分 
布 (估计) 合成 为 总 体 t 在 x 测验 上 的 分 布 。 其 分 布 列 在 附 表 
9.4 中 。 


由 训 9.4 合成 总 体 在 X 测验 上 的 分 布 
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按照 同样 的 办 法 ， 我 们 可 以 估 出 合成 总 体 在 y 测验 上 的 得 


分 分 布 。 这 样 我 们 就 可 以 用 设计 一 提供 的 等 百 分 位 等 值 法 将 x . 


与 y 两 测验 等 值 了 。 

3. 链 等 值 法 《Chained Equipercentile Equating Method) 

链 等 值 法 采取 的 是 一 种 链接 传递 的 等 值 计算 策略 。 在 本 设 
计 中 ， 先 利用 a 被 试 组 既 参 加 了 x 测验 又 参加 了 v 测验 的 条 
件 ， 应 用 等 百 分 位 等 值 法 将 测验 x 分 数 与 测验 v 分 数 等 值 对 
应 ,再 利用 BB 被 试 组 既 参 加 y 测验 又 参加 了 v 测验 的 条 件 ， 应 
用 等 百 分 位 等 值 将 测验 y 分 数 与 测验 v 的 分 数 等 值 对 应 ， 那 么 
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通过 两 次 等 值 ， 又 通过 错 测 验 v 的 链接 ， 测 验 x 与 测验 y 也 就 
有 了 等 值 对 应 关系 。 在 操作 上 可 以 遵循 以 下 途径 ， 对 于 测验 x 
的 某 个 分 数 x.， 在 a 被 试 组 的 x 测验 次 数 分 布 中 求 出 对 应 的 百 
分 等 级 PR。(x.)， 其 值 应 该 与 a 被 试 组 在 v 测验 上 某 个 ve 分 
数 的 百 分 等 级 PR。(v) 相等 ， 据 已 知 的 PR。(v) 在 次 数 分 
布 表 中 可 求 得 与 x。 等 值 的 v 测验 分 数 w， 据 ve 分 数 ， 根 据 8 
被 试 群体 在 v 测验 上 的 分 布 ， 可 求 出 相应 的 百 分 等 级 PRg 
(v)， 其 值 应 该 与 8 被 试 组 在 y 测验 上 某 个 分 数 的 百 分 等 级 
PRs (ye) 相等 ， 据 已 知 的 PR (y。)， 由 B 组 在 y 测验 上 的 次 
数 分 布 可 求 得 与 w 等 值 的 y 测验 分 数 y。， 故 而 有 x 与 y。 对 应 
等 值 。 整 个 过 程 示 意 如 附 图 9.5。 


以 人 相连 以 人 相连 
Xe 一 PR.(Xc) = PR, (Voy Ve>PRs (Ve) = PRa (Yo) Ye 


以 错 题 相连 
附 图 9.5 链 等 值 示 意图 


通过 图 9.5 可 以 看 到 ， 测 验 等 值 关系 的 寻找 一 定 要 通过 某 
种 等 值 媒体 。 这 个 等 值 媒体 ， 或 者 是 同一 批 被 试 〈 或 认为 能 力 
分 布 相等 的 两 批 被 试 ) ， 或 者 是 同一 批 测 题 〈 锚 题 或 销 测 验 )。 
在 等 值 设 计 中 这 是 一 个 必须 保证 的 条 件 。 另 外 还 必须 指出 的 
是 ， 应 用 等 百 分 位 等 值 进行 等 值 计算 最 好 是 先 对 样本 次 数 的 分 
布 作 平滑 处 理 ， 以 获取 最 佳 等 值 效 果 。 
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练习 与 宙 考 


1. 应 用 例 9.1 的 数据 采取 等 百 分 位 等 值 方法 完成 下 面 的 等 什 


对 应 表 。 
| 各 
| | 和 ll | 
2. 车 例 9:1 数据 是 设计 一 之 下 采集 获得 的 ， 请 分 别 求 取 
与 x=65 等 值 的 y 测验 分 数 的 两 种 等 值 标准 误 (等 百 分 位 等 什 
与 线性 等 值 两 种 ) 。 
3.“ 求 取 两 平行 测验 之 间 的 回归 方程 ， 可 以 建立 两 测验 分 
数 之 间 的 对 应 关系 。 这 种 对 应 关系 能 不 能 称 为 等 值 关系 ， 为 什 
么 ? 


4." 实际 采集 一 批 数据 对 两 个 测验 进行 等 值 计算 。 
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第 十 章 ”目标 参照 测验 


本 章 提 要: 

全 目标 参照 测验 的 特殊 意义 

傅 目 标 参 照 测验 的 项 目 分 析 

参 目标 参照 测验 的 信 度 与 效 度 分 析 

重 目 标 参照 测验 合格 分 数 分 界 点 的 确定 
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第 一 节 ”概述 
一 、 目 标 参 照 测验 的 产生 


20 世纪 初期 ， 科 学 的 测量 方法 引 人 心 理学 和 教育 学 的 研 
究 领 域 。 出 于 解释 测验 原始 分 数 含 义 的 需要 ， 西 方 早期 的 心理 
与 教育 测量 学 家 们 提出 “相对 能 力 ” 的 测量 ， 即 将 测验 的 原始 
分 数 转换 为 百 分 等 级 或 标准 分 数 等 相对 位 置 量 数 ， 从 而 指出 个 
体 在 其 相应 团体 中 相对 于 其 他 个 体 而 言 的 能 力 水 平 。 此 后 ， 心 
理 与 教育 测量 的 一 个 基本 出 发 点 就 是 度量 与 比较 个 体 间 的 差 
异 ， 以 被 试 在 团体 中 的 相对 位 置 来 评定 和 解释 测量 结果 。 在 这 
一 基础 上 逐渐 发 展 起 来 的 一 个 比较 固定 的 测验 模式 就 是 常 模 参 
照 测验 ， 它 广泛 应 用 于 能 力 、 能 力 倾向 、 成 就 、 人 格 、 态 度 等 
多 种 特质 的 测量 之 中 ， 并 发 展 起 一 套 比 较 成 熟 的 统计 分 析 方 
法 ， 用 于 项 目 分 析 、 质 量 控制 (测验 信 、 效 度 分 析 ) 以 及 分 数 解 
释 之 中 。 | 

然而 ， 从 本 世纪 中 期 开始 ， 人 们 逐渐 发 现 常 模 参 照 测验 模 
式 存 在 一 定 的 局 限 性 : 并 不 是 所 有 的 测验 都 只 关心 个 体 间 的 差 
异 。 有 些 测验 目的 在 于 了 解 和 界定 个 体 在 测验 内 容 上 掌握 的 绝 
对 水 平 。 比 较 典 型 的 例子 是 用 于 评价 教学 活动 结果 的 测验 ， 它 
们 的 目的 是 为 确定 在 某 一 特定 教学 领域 内 ， 被 试 是 否 人 掌握 了 该 
领域 中 必要 的 知识 或 技能 以 及 他 在 这 一 领域 中 的 困难 与 缺陷 所 
在 ， 以 便 有 目的 地 对 他 加 以 教学 辅导 与 补 玉 。 常 模 参 照 测验 则 


知识 宝库 考研 性 区 kww .1zhao prg 友 情 提示 : 购买 原版 ， 饮 水 思源 ! 
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只 能 描述 被 试 在 团体 中 的 相对 位 置 ， 无 法 说 明 他 对 所 测 内 容 掌 
气 的 绝对 水 平 ， 因 而 这 种 测验 模式 在 此 便 显 得 很 适用 了 。 

鉴于 常 模 参 照 测验 的 这 种 局 限 性 ， 测 量 学 家 们 开始 考虑 另 
一 种 可 供 选 择 的 模式 : 目标 参 早 测验 〈 亦 称 标准 参照 测验 )。 
1962 年 戈 菜 塞 《R.Glaser》 和 克 劳 斯 (D.Klaus) 首先 提出 目 
标 参 照 测验 的 概念 ， 并 于 次 年 详细 论述 了 这 一 测验 模式 在 成 就 
测验 上 的 功用 ， 从 而 使 得 目标 参照 测验 引起 测量 学 家 的 极 大 关 
注 ， 并 逐渐 发 展 成 与 常 模 参 照 测验 并 列 的 一 种 测验 模式 。 


二 、 目 标 参 照 测验 的 定义 


目标 参 限 测 验 的 主要 目的 在 于 了 解 个 体 在 所 规定 的 测量 内 
容 上 的 行为 水 平 ， 因 此 其 出 发 点 是 个 体 本 身 的 绝对 水 平 ， 而 不 
再 是 个 体 间 的 水 平 差 异 。 对 于 这 样 一 种 不 同 于 常 模 参 照 测验 的 
新 的 测验 模式 ， 测 量 学 者 们 从 不 同 角 度 给 它 下 了 许多 不 同 的 定 
义 ， 至 今 还 没有 一 个 统一 的 为 众人 公认 的 结论 。 但 就 一 般 意义 
而 言 ， 戈 鞠 塞 1971 年 对 于 目标 参照 测验 的 描述 与 界定 是 比较 
广泛 地 为 人 们 所 接受 的 ; “所 谓 目 标 参照 测验 ， 是 根据 某 一 明 
确 界定 的 内 容 范围 而 统 密 编制 的 测验 ， 并且， 被 试 在 测验 上 所 
得 结果 ， 也 是 根据 某 一 明确 界定 的 行为 标准 直接 进行 解释 的 。 

在 这 一 定义 中 , “内 容 范围 ”的 概念 是 首要 的 ， 在 测验 纺 
制 之 前 ， 必 须 对 所 欲 测量 的 内 容 范围 做 出 清晰 的 界定 ， 并 给 予 
它 严格 的 操作 定义 。 测 验 题 目的 选择 限制 在 这 样 的 内 容 范 围 之 
内 ， 并 且 ， 构 成 测验 的 所 有 题目 ， 必 须 是 所 依据 的 内 容 范 围 的 
一 个 代表 性 样本 。 这 样 一 来 ， 被 试 在 测验 中 的 成 绩 ， 便 有 理由 
被 推论 到 测验 所 和 欲 测 的 内 容 范 围 中 去 ， 从 而 可 以 对 被 试 在 所 测 
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内 容 范围 中 的 掌握 水 平 作出 评价 。 

“行为 标准 ”是 上 述 定义 中 的 另 一 个 重要 概念 。 目 标 参照 
测验 的 目的 一 般 在 于 了 解 被 试 在 某 一 行为 领域 的 绝对 水 平 ， 从 
而 判定 他 是 否 达到 了 从 事 此 项 行为 的 最 低 标准 ， 比 如 中 学 会 考 
的 目的 在 于 判断 考生 是 否 达到 了 中 学 毕业 所 要 求 的 最 基本 的 知 
识 技能 水 平 ， 各 种 专业 化 的 资格 考试 目的 在 于 考察 考生 是 否 具 
备 了 从 事 这 一 专业 所 要 求 的 最 低 水 平 ， 等 等 。 因 此 ， 目 标 参 昭 
测验 的 分 数 一 般 将 依据 某 一 绝对 的 标准 进行 解释 ， 这 一 标准 一 
般 称 为 “分 异 点 "。 并 且 ， 目 标 参照 测验 的 分 界 点 的 确定 ， 是 
建立 在 内 容 范围 的 明确 界定 基础 之 上 的 〈 详 见 本 章 第 四 节 )。 

因此 ， 在 一 般 的 意义 上 ， 当 一 个 测验 是 以 某 一 明确 界定 的 
内 容 范 围 为 基础 编制 而 成 ， 并 且 其 分 数 是 参照 该 内 容 范围 所 要 
求 的 绝对 标准 进行 解释 ， 我 们 便 称 这 一 测验 为 一 个 目标 参照 测验 。 


第 二 节 目标 参照 测验 的 项 目 分 析 


一 、 内 容 范 围 的 确定 


任何 一 种 测验 的 编制 ， 其 前 期 工作 不 外 平 为 测验 目的 的 确 
定 ， 测 验 内 容 的 界定 以 及 测验 编制 计划 的 设计 。 从 目标 参照 测 
验 的 定义 来 看 ， 构 成 测验 的 各 个 项 目 是 否 合适 , 测验 是 否 有 
效 ， 测 验 的 分 数 是 否 能 得 到 有 意义 而 准确 的 解释 ， 这 一 切 的 前 
提 都 在 于 测验 有 没有 明确 的 目的 以 及 与 之 相应 的 严格 界定 的 内 
容 范 围 。 因 此 ， 对 于 目标 参照 测验 而 言 ， 测 验 编制 的 前 期 过 程 
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尤为 重要 。 

一 个 测验 的 内 容 范 国 包 括 所 和 欲 测 量 特质 中 蕴含 的 全 部 行 
为 ， 它 可 以 非常 大 ， 如 数学 能 力 ， 也 可 以 非常 小 ,如 10 以 内 
的 整数 加 法 运算 能 力 。 不 过 ， 任何 一 个 内 容 范 围 都 具有 一 些 共 
同 的 特点 。 首 先 ， 内 容 范 围 具 有 边界 。 当 其 边界 得 到 明确 界定 
时 ， 我 们 就 可 以 判定 什么 行为 属于 这 一 内 容 范围 ， 而 什么 行为 
却 超出 了 这 一 范围 。 其 次 ， 每 一 内 容 范围 内 容 均 可 分 为 风 类 ， 
每 一 类 中 又 可 分 为 更 细 更 小 的 类 ， 当 每 一 类 的 内 容 及 其 在 此 内 
容 范围 内 的 相对 重要 性 确定 以 后 ， 内 容 范围 就 有 了 明确 的 结 
构 。 而 当 一 个 内 容 范 围 具有 了 明确 的 边界 和 结构 时 ， 我 们 便 认 
为 此 内 容 范围 得 到 了 明确 界定 。 

特定 测验 目的 的 确定 常 为 内 容 范围 的 界定 提供 依据 。 如 若 
测验 目的 在 于 检验 某 类 专业 化 工作 的 资格 水 平 ， 那 么 通过 工作 
分 析 便 可 界定 测验 的 内 容 范围 ; 若 测 验 的 目的 在 于 检验 教学 或 
训练 的 效果 ,那么 可 以 通过 与 特定 课程 或 训练 有 关 的 教材 、 大 
纲 以 及 学 科 专 家 的 意见 来 界定 内 容 范 围 。 界 定 的 结果 常常 以 双 
向 细 目 表 (或 称 测验 蓝图 ) 形式 表现 出 来 。 

表 10.1 是 广东 省 化 学 高 考 标准 化 试验 中 使 用 的 命题 细 目 
表 (1986 ~ 1990 年 )。 

如 上 例 所 示 ， 命 题 细 目 表 由 3 个 要 素 构 成 : 一 是 教学 目 
标 ， 本 例 中 列 有 识 记 、 理 解 、 应 用 、 分 析 综 合 与 评价 五 个 方 
面 ; 二 是 教学 内 容 ， 一般 可 参照 本 学 科 的 教学 大 网 和 教材 来 确 
定 ; 三 是 在 整个 内 容 范 围 中 每 一 类 内 容 和 每 一 种 目标 相 结 合 后 
所 占 的 比重 〈 相 对 重要 性) ， 上 表 中 数字 即 为 比重 值 。 这 一 要 
素 主 要 通过 专家 评定 而 获得 。 
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训 10.1 命题 细 目 表 举 例 










基本 概念 与 理论 
元 素 化 合 物 

有 机 化 合 物 
化 学 计算 

化 学 实验 


在 上 例 所 示 的 命题 细 目 表 中 ， 化 学 高 考 的 内 容 范 围 已 其 备 
了 明确 的 边界 和 结构 ， 试 卷 的 编制 工作 便 可 在 这 一 框架 中 进行 。 


二 、 测 验 项 目的 内 容 效 度 分 析 


目标 参照 测验 的 项 目 分 析 ， 首 先 要 对 构成 测验 的 每 一 个 题 
目 是 否 合 适 以 及 有 效 进行 分 析 ， 即 检验 题目 与 测验 内 容 范围 所 
要 求 的 内 容 与 目标 的 一 致 性 。 这 一 过 程 一 般 缺 乏 客观 的 统计 分 
析 手 段 ， 通常 采 用 专家 评定 的 方法 。 

专家 评定 可 以 采取 不 同方 式 ， 其 中 比较 直观 和 常用 的 一 种 
方式 是 要 求 有 关内 容 领 域 的 专家 填写 项 目 内 容 评 定 表 ， 在 五 级 
量 表 上 对 每 个 题目 所 测 内 容 与 项 目 编制 者 所 和 欲 测 量 的 目标 内 容 
之 间 的 一 致 性 作出 评定 ， 表 10.2 是 一 个 测验 项 目 内 容 评定 表 
的 样 例 。 
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表 10.2 项 目 内 容 评定 表 ( 样 例 ) 

















项 目 内 容 评定 表 
日 期 : 内 容 范围 : 





评定 者 姓名 : 





首先 ， 请 仔细 阅读 已 界定 的 内 容 范围 和 测验 项 目 ; 
然后 ， 请 判断 : 你 认为 每 一 项 目 在 多 大 程度 上 反映 了 其 
在 被 编制 时 所 和 欲 测 的 目标 内 容 。 判 断 赖 以 产生 的 唯一 基础 是 
项 目 内 容 与 其 意欲 测量 的 目标 内 容 之 间 的 匹配 程 沪 。 请 采用 
下 面 的 五 级 量 表 : 

较 差 匹配 “一 般 匹 配 “ 较 好 匹配 “很 好 匹配 “完美 匹 枯 

1 2 3 4 5 

在 测验 项 目的 题 号 所 对 应 的 项 目 评定 栏 中 你 认为 合适 的 
等 级 数目 上 划 圈 。 


目标 内 容 ”测验 题 号 项 目 评定 
1 2 123 4 35 
7 12345 
14 1234 5 
2 1 1 2 345 
3 1 2 3 45 
8 1 2 3 45 
13 1 2345 
3 4 1 2 345 
6 1 2 .345 
12 1 2345 
4 5 1 2345 
9 1 2 3 45 
10 1 2 3 .45 
11 1 2 3 .45 





注 :此 表 引 自 Ranald A.Berk 所 著 《 目 标 参 照 测验 导论 》。 
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对 于 测验 中 每 一 项 目的 内 容 与 其 目标 内 容 之 间 一 致 性 的 等 
级 评定 ， 通 常 需要 邀请 多 位 专家 共同 进行 ， 这 样 便 可 以 得 到 多 
位 专家 的 评定 结果 ， 表 10.3 是 9 位 专家 在 表 10.2 所 示 评 定 表 
中 的 等 级 评定 结果 以 及 对 此 结果 的 一 些 统计 数据 。 


表 10.3 9 位 专家 对 14 道 题目 等 级 评定 结果 


专家 评定 结果 统计 数据 
目标 内 容 测验 题 号 123456789 平均 数 中 数 


Nw 
nh tn 
wn 
Ee 
人 全 人 
00 全 全 


wwwmwmwmrm ww 
wm howb 上 ww 
人 pb oo mb 


A 


45 
55 
2 4 
3 3 
1 1 
2 3 
5 5 
44 
5 5 
4 5 
44 
11 
55 


一 


9242106 4 


2 
ty 





注 : 表 中 资料 来 源 同 表 10.2。 


表 10.2 不 仅 列 出 9 位 专家 对 14 道 测验 题目 分 别 作出 的 等 
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级 评定 结果 ， 而 且 还 给 出 了 九 位 专家 在 每 道 题目 上 的 等 级 评定 
均值 和 中 位 数 ， 以 及 每 位 专家 对 14 道 题目 所 评 等 级 与 中 数 的 
差异 之 和 。 

从 表 10.3 的 结果 中 ， 我 们 可 以 直接 分 析 每 一 道 题 目的 内 
容 效 度 并 进而 决定 题 骨 的 取舍 。 若 以 中 数 为 基础 进行 分 析 ， 表 
中 第 2、7、14 题 均 是 针对 目标 内 容 1 而 编制 的 ， 经 专家 评定 ， 
这 三 题 所 测 内 容 均 和 其 目标 内 容 之 间 具 有 完美 的 匹配 (等 级 评 
定 中 数 均 为 5); 同 理 , 第 4、12、5、11 题 的 内 容 效 度 亦 得 到 
很 高 的 评价 。 因 此 ， 这 七 道 题目 无 疑 可 以 原封 不 动 地 保留 下 
来 。 再 看 ,第 1、3、 石 、9 题 所 测 内 容 与 其 目标 内 容 之 间 的 丐 
配 程度 分 别 被 评定 为 较 好 〔〈 中 数 为 3) 或 很 好 〈 中 数 为 4) ， 说 
明 这 四 题 也 还 是 可 取 的 ， 只 和 需 根 据 专家 意见 略 作 修改 即 可 ， 最 
后 , 第 8、13 、10 题 的 内 容 效 度 一 般 (中 数 为 2) 或 较 差 (中 
数 为 1)， 说明 这 三 题 没有 能 够 很 好 地 反映 出 其 欲 洞 的 自 标 内 
容 ， 内 容 效 度 很 低 或 根本 不 具备 内 容 效 度 ， 一 般 需 作 较 大 的 修 
改 或 测 除 。 

若 以 均值 为 基础 进行 分 析 ， 得 到 的 结果 与 上 述 以 中 数 为 基 
础 进行 分 析 的 结果 是 十 分 类 同 的 。 有 时 ， 为 了 增加 参加 评定 的 
专家 们 之 间 的 一 致 性 ， 也 可 根据 每 位 专家 在 所 有 题目 上 所 评 等 
级 与 中 数 间 的 差异 量 来 决定 专家 的 取 人 会。 如 上 表 所 示 ， 第 二 位 
专家 在 所 有 题 自 上 所 评 等 级 与 各 中 数 间 的 差异 之 和 为 4， 说 
明 该 专家 的 评定 结果 与 其 他 8 位 专家 之 间 具 有 较 大 的 差异 ， 因 
此 可 以 不 考虑 这 位 专家 的 意见 ， 只 保留 8 位 专家 的 评定 结果 ， 
在 此 基础 上 得 到 均值 和 中 数 等 统计 数据 并 进一步 决定 题目 的 
取舍。 
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三 、 测 验 项 目的 难度 和 区 分 度 分 析 


(一 ) 测验 的 预测 

测验 缩 制 完成 后 ， 须 选取 一 定数 量 的 被 试 进行 预测 ， 由 此 
获得 预测 数据 ， 然 后 才能 在 此 数据 基础 上 对 项 目的 难度 和 区 分 
度 进行 量化 分 析 。 

目标 参照 测验 的 预测 方法 主要 有 以 下 三 种 ， 

1. 前 测 一 后 测 方法 

选取 一 组 被 坛 ， 在 其 接受 与 测验 目标 内 容 有 关 的 教学 过 程 
前 后 各 施 测 一 次 ， 取 得 前 测 和 后 测 的 结果 ， 前 者 表示 未 掌握 者 
在 测验 中 的 水 平 ， 后 者 表示 已 掌握 者 的 水 平 。 

2. 已 接受 教学 组 一 一 未 接受 教学 组 方法 

选取 两 组 被 试 ， 其 中 一 组 已 经 接受 了 有 关 测 验 目标 内 容 的 
教学 ， 而 另 一 组 从 未 接受 过 ， 将 测验 对 这 两 组 被 试 同时 施 测 ， 
亦 可 获得 与 第 一 种 方法 中 含义 类 同 的 两 组 结果 。 

3, 对 照 组 方法 

方法 1 和 2 均 假设 凡 接 受 了 有 关 教 学 活动 的 被 试 均 已 掌握 
了 教学 内 容 ， 因 而 视 之 为 掌握 组 。 然 而 ， 在 实际 当中 ， 很 可 能 
在 已 接受 有 关 教学 的 被 试 中 依然 存在 个 别 未 掌握 者 ， 而 在 从 未 
接受 有 关 教学 的 被 试 中 却 存在 个 别 掌握 者 , .因而 方法 1 和 2 在 
这 一 点 上 是 值得 质疑 的 。 对 照 组 方法 的 提出 可 以 说 是 对 此 铅 陷 
的 弥补 ;选取 两 组 被 试 ， 其 中 一 组 被 试 被 其 教师 评定 为 掌握 
组 ， 而 另 一 组 则 被 教师 评定 为 未 掌握 组 。 将 测验 同时 施 测 于 这 
丙 组 补 坛 ， 便 获得 与 上 述 方法 类 同 的 结果 。 
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《二 》 测 验 项 目的 难度 分 析 

目标 参照 测验 的 项 目 难 度 计算 与 常 模 参照 测验 相同 ， 一 般 
以 通过 率 来 表示 。 但 是 ， 有 些 学 者 认为 ， 目 标 参照 测验 的 项 目 
难度 分 析 并 不 重要 ， 甚 至 有 时 并 不 必要 。 纯 粹 的 目标 参照 测验 
_ 般 注重 的 是 所 测 内 容 范 围 以 及 被 试 在 所 测 内 容 范围 上 的 掌握 
程度 ， 因 而 若 某 项 目 所 测 为 内 容 范围 内 不 可 或 缺 的 重要 内 容 ， 
那么 无 论 该 项 目 是 难 是 易 ， 均 应 得 到 保留 。 

对 于 目标 参照 测验 的 项 目 难 度 的 计算 ， 在 大 多 情况 下 只 是 
作为 项 目 区 分 度 分 析 的 基础 。 


(三 ) 测验 项 上 自 的 区 分 度 分 析 

目标 参照 测验 应 该 能 将 在 其 内 容 范 围 上 的 已 掌握 和 未 掌握 
者 作出 最 大 限度 的 区 分 ， 因 而 ， 每 一 测验 项 目的 区 分 度 如 何 便 
成 为 一 个 值得 关心 的 问题 。 

测验 项 目的 区 分 度 一 般 采 取 两 类 指标 : 难度 差 值 和 相关 系数 。 

1. 难度 差 值 

(1》 掌握 组 一 一 未 掌握 组 鉴别 指数 〈D) 

通过 上 述 三 种 预测 方法 中 的 任何 一 种 ， 均 可 得 到 两 组 数 
据 ， 一 组 代表 掌握 者 水 平 ， 一 组 代表 未 掌握 者 水 平 。 分 别 计算 
这 两 组 在 某 项 目 上 的 平均 通过 率 ， 记 为 PA 和 Ps， 则 该 项 目的 
鉴别 指数 为 : 

K=Ps- Pe | 

. 鉴别 指数 D 的 大 小 ， 可 以 直观 反映 出 该 项 目 在 多 大 程度 
上 对 掌握 者 和 未 掌握 者 作出 了 区 分 。D 值 从 - 1.00 到 +1.00 
之 间 变化 ， 越 接近 于 + 1.00， 题 目 区 分 度 越 高 ， 说 明 题目 越 有 
效 。 以 表 10.4 中 数据 为 例 ， 可 对 表 中 五 个 项 目的 区 分 度 进行 
分 析 。 . 
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珍 10.4 前 后 测 的 项 目 得 分 表 


项 目 
1 2 3 4 5 
被 试 ”前 测 后 测 前 测 后 测 ”前 测 后 测 前 测 后 济 ”前 济 后 测 


© 
pm 
J 


Lc 
Pet Pt 
OO -OO 
OO ~ 
OOOO 人 人 OD- OO” 
Dio Ok OO OO 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


局 富 口 口 避 口上 口上 口号 
DO DD 





表 中 后 测 分 数 表示 掌握 者 分 数 ， 前 测 分 数 则 表示 未 掌握 者 
分 数 ， 则 ; 
对 于 项 目 1，D, =1-0=1 


同 理 ，D: =0-1= -1 
SS_6_ 
=10- 和 = 一 0.1 
8 4_ 
Ds=10 10=0.4 
Ds=1-1=0 


分 析 这 五 个 项 目的 区 分 度 值 ，D; 为 + 1.00, 说 明 项 目 1 
可 以 将 沿 握 者 和 未 掌握 者 作出 最 准确 的 区 分 ; D, = - 1.00， 
说 明 项 目 2 虽然 也 将 掌握 者 和 未 掌握 者 作 了 最 大 区 分 ， 但 问题 
在 于 和 擎 握 者 无 人 通过 该 题 ， 而 未 掌握 者 却 全 部 和 通过， 可 见 该 项 
目 存在 错误 ， 或 者 是 出 题 错误 ， .或 者 是 正确 答案 弄 错 ， 此 时 应 
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仔细 查找 该 题 错误 原因 ， 于 以 修改 或 删除 ;项目 3 的 鉴别 指数 
亦 为 负 信 ， 即 未 掌握 者 在 该 题 的 通过 率 高 于 掌握 者 ， 说 明 出 现 
与 项 目 2 类 同 的 问题 ， 因 此 应 对 此 项 目 作出 类 似 对 项 目 2 的 处 
理 ; Ds=0.4, 说 明 项 目 4 已 具有 一 定 的 区 分 度 ， 可 以 保留 ; 
Ds =0， 说 明 项 目 5 对 掌握 者 和 未 掌握 者 具有 同样 的 难度 ， 亦 
即 不 具备 区 分 力 ， 在 纯粹 目标 参照 测验 中 ， 若 该 项 目 所 测 内 容 
非常 重要 ， 那 么 仍 可 考虑 保留 该 题 。 

(2) 个 人 获得 指数 (Dic) 

采取 前 测 一 后 测 方 法 ， 可 获得 在 前 测 中 错误 回答 某 项 目 而 
在 后 测 中 能 够 正确 回答 的 被 试 人 数 比例 ， 此 即 该 项 目的 个 人 获 
得 指数 ， 其 信 在 0 至 +1.00 之 间 变 化 ， 其 大 小 直接 反映 了 经 
过 教学 活动 之 后 受益 的 被 试 比 例 。 以 表 10.4 中 数据 为 例 ， 可 
以 得 到 五 个 项 目的 个 人 获得 指数 分 别 为 1，0，0.2，0.4，0， 
说 明 项 目 1 最 有 效 ， 项 目 2 和 5 没有 区 分 力 。 

由 于 Dic 只 考 目 到 前 测 中 失败 而 在 后 测 中 通过 的 被 试 ， 却 
没有 考虑 到 在 前 测 中 通过 而 在 后 测 中 反而 失败 的 被 试 ， 因 而 其 
值 不 会 出 现 负 值 ， 这 使 它 所 能 反映 的 问题 少 于 一 般 的 区 分 度 指 
标 ， 因 此 其 应 用 也 受到 限制 。 

2. 相关 系数 

项 目 得 分 和 测验 总 分 之 间 的 一 致 性 程度 常 被 用 作 项 目 区 分 
度 的 指标 ， 这 在 常 模 参 照 测 验 的 区 分 度 计 算 中 已 有 详细 介绍 ， 
这 些 方 法 在 目标 参照 测验 中 同样 适用 。 

以 相关 系数 为 指标 的 区 分 度 在 -1.00 至 +1.00 之 间 变 化 ， 
当 其 值 为 负 时 ， 应 检查 题目 的 问题 所 在 ， 了 予以 修改 或 删除 ; 当 
其 值 为 正 时 ， 越 接近 于 1， 题目 越 有 效 ; 当 其 值 为 0 时 ,题目 
不 具 区 分 力 ， 一般 不 予 保留 ， 但 在 纯粹 目标 参照 测验 中 应 视 该 
题 所 测 内 容 在 内 容 范围 中 的 重要 性 而 决定 其 取舍 。 

目标 参照 测验 的 项 目 区 分 度 还 可 以 用 其 他 许多 指标 进行 计 
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算 和 分 析 ， 但 由 于 这 些 指 标 所 需 计算 比较 复杂 ， 因 而 在 实际 中 
并 不 常用 ， 在 此 不 再 介绍 。 


第 三 节 目标 参照 测验 的 信 度 与 效 度 
一 、 信 和 度 及 其 估计 


信 度 是 指 测量 结果 的 一 致 性 或 稳定 性 。 任 何 类 型 的 测验 ， 
都 应 该 保证 测验 结果 的 信 度 ， 即 对 同一 旅 测 对 象 施 测 多 次 后 的 
结果 之 间 应 该 具备 高 度 的 一 致 性 ， 从 而 可 以 将 测验 结果 归 之 于 
个 体 真 实 水 平 的 影响 而 非 随机 误差 的 影响 ， 对 目标 参照 测验 的 
质量 评估 同样 应 该 重视 信和 度 这 一 指标 。 

在 常 模 参 照 测验 的 信和 度 评 估 中 ， 通 常 是 以 相关 系数 作为 信 
度 指 标 ， 相 关 程 度 越 高 ， 信 和 度 就 越 高 ， 测 验 越 可 千 。 然 而 ， 由 
于 以 相关 系数 表示 的 测验 信和 度 的 高 低 在 很 大 程度 上 受到 受 测 者 
团体 异 质 性 的 影响 ， 即 被 试 异 质 性 越 高 ， 测 验 分 数 分 布 就 越 
广 ， 从 而 相关 系数 越 高 ， 测 验 信 度 相应 也 就 越 高 ， 因 而 ， 这 些 
信和 度 指 标 在 目标 参照 测验 上 的 应 用 价值 就 不 免 受到 怀疑 ; 目标 
参照 测验 的 目的 一 般 不 在 于 鉴别 个 体 差 异 ， 而 在 于 了 解 个 体 在 
所 测 内 容 上 的 掌握 水 平 ， 因 而 在 大 多 数 情况 下 ， 被 试 团体 在 目 
标 参照 测验 上 的 分 数 分 布 比较 集中 ， 如 高 中 毕业 会 考 ， 一 般 来 
说 绝 大 多 数 考生 都 能 达到 所 要 求 的 水 平 。 这 样 一 来 ， 若 用 相关 
系数 作 信和 度 指标 ， 由 于 其 受到 分 数 分 布 的 影响 ， 那 么 即使 测验 
本 身 具有 较 高 的 稳定 性 和 一 致 性 ， 所 得 的 信 庆 系数 也 会 很 低 - 
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可 见 ， 般 常 以 相关 系数 所 表示 的 信 度 指标 在 目标 参照 测验 上 是 
不 太 适 用 的 。 

对 于 目标 参照 测验 的 信 度 估计 ， 测 量 学 家 们 正在 不 断 地 探 
索 着 适宜 的 统计 方法 ， 有 些 人 也 提出 了 一 些 统计 指标 ， 不 过 还 
不 够 成 熟 。 现 介绍 两 种 方法 如 下 。 


(一 ) 分 类 一 致 性 信和 度 

目标 参照 测验 在 其 分 数 解释 上 最 常见 的 做 法 就 是 将 被 试 分 
类 ， 一 般 是 根据 某 一 分 数 分 界 点 将 被 试 分 为 掌握 者 和 未 掌握 者 
两 类 。 称 作 “ 达 标 一 未 达标 ”或 者 “及 略 一 未 及 格 "。 因 此 ， 
分 类 的 一 致 性 在 此 就 显得 非常 重要 。 

对 测验 的 分 类 一 致 性 的 度量 指标 ， 称 作为 分 类 一 致 性 信 
度 。 其 最 简单 易 行 也 最 常用 的 估计 方法 是 考查 被 试 在 同一 测验 
的 两 次 施 测 中 或 两 个 复 本 的 施 测 中 是 否 被 分 在 同一 类 中 。 具 体 
做 法 类 似 于 常 模 参照 测验 中 的 再 测 法 和 复 本 法 ， 但 统计 方法 和 
所 用 指标 不 同 。 在 此 是 采用 同一 被 试 轩 体 在 两 次 测验 结果 中 均 
被 分 为 及 格 或 不 及 格 类 别 中 的 人 数 百 分 比例 作为 分 类 一 致 性 信 
度 的 指标 。 

设 两 次 测验 记 为 A 和 B， 测 验 结果 以 表 10.5 表示 : 


表 10.5 两 次 测验 结果 分 类 表 
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据 上 表 ， 测 验 的 分 类 一 致 性 信 度 为 两 次 施 测 中 均 及 格 和 均 
不 及 格 人 数 占 总 人 数 的 比例 ， 即 : 
= (a+d) /N 


式 中 ，N=a+b+c+G 

车 有 一 个 60 人 的 团体 ， 在 某 测验 的 两 次 施 测 中 有 21 人 均 
及 格 ，12 人 均 不 及 格 ， 那 么 ， 该 测验 的 分 类 一 致 性 信和 度 则 为 

= (21+12) /60=0.55。 


分 类 一 _ 可 性 信康 ， 的 最 大 全 为 1， 说 明 两 次 放 测 结果 对 
被 试 的 分 类 完全 一 致 、 测 验 结果 完全 一 致 。pu 越 接近 于 1， 说 
明 测验 结果 的 一 致 性 或 稳定 性 越 高 ， 测 验 越 可 党。 

分 类 一 致 性 信 度 的 优点 在 于 计算 简单 ， 意 义 直观 易 懂 。 但 
由 于 其 所 采用 的 方法 类 同 于 常 模 参照 测验 信 度 评估 中 的 再 测 法 
和 复 本 法 ， 因 而 再 测 法 和 复 本 法 的 缺点 在 此 同样 存在 。 此 外 ， 
分 类 一 致 性 信和 度 也 受到 测验 长 度 和 被 试 分 数 分 布 的 影响 。 不 
过 ， 在 分 类 一 致 性 信 度 的 影响 因素 中 ， 最 重要 也 最 独特 的 一 个 
因素 是 测验 分 数 分 界 点 的 确定 问题 。 分 界 点 不 同 ， 意 味 着 被 划 
分 为 及 格 和 不 及 格 的 标准 政变 ， 因 而 人 数 比例 必然 也 会 发 生变 
化 。 因 此 ， 分 数 分 界 点 的 科学 确定 是 评估 测验 分 类 一 致 性 的 前 
提 (分 界 点 的 确定 详 见 本 章 第 四 节 )。 在 报告 目标 参照 测验 的 
分 类 一 致 性 信 度 时 ， 必 须 同 时 提供 测验 的 分 数 分 界 点 ， 以 及 测 
验 长 度 等 资料 。 

在 目标 参照 测 验 的 分 类 一 致 性 研究 中 ， 还 有 人 提出 其 他 一 
些 指标 ， 但 它们 或 者 由 于 计算 过 分 复杂 ， 或 者 由 于 解释 不 够 直 
观 ， 在 应 用 上 一 直 不 如 p, 广泛 。 


(二 ) 方 束 分 析 方 法 一 一 荷 伊 特 信 度 
在 经 典 测量 理论 的 真 分 数 模型 中 ， 信 和 度 被 定义 为 真 分 数 的 
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变异 在 实 得 分 数 变异 中 所 占 比例 。 常 模 参 照 测验 的 信 度 评估 方 
法 中 所 介绍 过 的 荷 伊 特 信 和 度 ， 正 是 从 信 度 定义 出 发 ， 利 用 方差 
分 析 的 方法 ， 找 出 个 体 水 平 的 真正 变异 在 总 变异 中 的 比例 ， 以 
此 作为 信和 度 的 千 计 值 。 此 法 不 受 测验 目的 或 被 试 异 质 性 的 影 
响 。 因 这 同 样 适用 于 目标 参 璨 测验 的 信和 度 评估 。 此 法 具体 计算 
与 解释 在 本 书 前 文 已 有 叙述 ， 在 此 不 再 费 述 。 由 于 荷 伊 特 信 诬 
不 会 随 测 验 分 数 分 界 点 而 变化 ， 因 而 更 具 普 遍 性 。 


二 、 效 度 及 其 估计 


测验 的 效 度 是 评价 任何 一 个 测验 的 质量 好 坏 的 最 重要 的 指 
标 ， 因 而 ， 效 度 分 析 在 目标 参照 测验 的 质量 评 佑 中 同样 占据 重 
要 地 位 。 


(一 ) 内 容 效 度 

目标 参照 测验 注重 被 试 在 其 所 测 内 容 范 围 内 的 掌握 程度 ， 
因而 测验 本 身 的 题目 组 成 对 其 欲 测 之 内 容 范 围 的 骤 盖 程度 或 代 
表 性 程度 一 一 亦 即 测验 的 内 容 效 度 一 一 在 此 显得 尤为 重要 。 

评估 任 一 测验 的 内 容 效 度 ， 都 依赖 于 两 个 条 件 : 一 是 测验 
有 明确 界定 的 内 容 范围 ; 二 是 对 测验 每 一 题目 的 内 容 效 度 的 分 
析 。 目 标 参照 测验 一 般 来 说 有 相对 比较 确定 的 内 容 范围 ， 可 以 
命题 细 目 表 表 示 ， 同 时 ， 也 可 以 采用 专家 评定 的 方法 对 题目 效 
度 进行 分 析 ， 从 而 保留 有 效 题 目 ， 删 除 无 效 题目 。 下 一 步 的 问 
题 便 在 于 ; 所 有 保留 下 来 的 有 效 题目 对 整个 内 容 范围 的 覆盖 程 
度 如 何 ? 对 此 ， 常 模 参 照 测验 中 所 介绍 的 内 容 效 度 分 析 方 法 基 
本 上 可 以 照搬 到 有 目标 参照 测验 中 来 ， 在 此 不 再 于 述 。 . 
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(二 ) 效 标 关联 效 度 

目标 参照 测验 一 般 倾向 于 根据 被 试 在 测验 中 所 得 分 数 将 其 
划分 至 掌握 者 或 者 未 掌握 者 之 中 ， 从 中 可 以 对 被 试 在 未 来 的 学 
习 或 工作 上 可 能 成 功 的 程度 作出 预测 ， 从 而 为 教学 决策 或 一 些 
人 事 方面 的 决策 提供 依据 。 因 此 ， 效 标 关联 效 度 (也 称 实证 效 
度 ) 的 分 析 对 目标 参照 测验 来 说 也 是 重要 的 。 

目标 参照 测验 的 效 标 关 联 效 度 分 析 方 法 与 常 模 参 照 测验 中 
所 介绍 的 方法 在 其 体 实施 中 没有 太 大 差异 ， 其 不 同 之 处 主要 在 
于 统计 指标 上 。 常 模 参 照 测验 一 般 用 测验 与 效 标 间 的 相关 系数 
作为 测验 效 标 关联 效 度 的 指标 ， 而 我 们 已 经 知道 ， 相 关系 数 大 
小 受到 分 数 分 布 的 影响 ， 不 适用 于 目标 参照 测验 ， 因 而 有 人 提 
出 以 “决策 效 度 ” 《Decision Validity) 来 评估 目标 参照 测验 的 
效 标 关联 效 度 。 | 

以 教学 情境 中 某 目 标 参 照 测 验 为 例 ， 测验 结果 依据 某 分 数 
分 界 点 分 为 及 格 和 不 及 格 两 类 ; 选用 “是 否 接 受过 相应 教学 活 
动 ”或 者 教师 评定 结果 为 效 标 ， 将 参加 测验 的 被 试 分 为 “掌握 
组 ”和 “未 掌握 组 "; 计算 掌握 组 被 试 在 测验 中 及 格 人 数 占 参 
加 测验 总 人 数 的 比例 和 未 掌握 组 在 测验 中 不 及 格 的 人 数 比 例 ; 
两 个 比例 相 加 所 得 结果 即 为 决策 效 度 。 

决策 效 度 的 计算 方法 也 可 以 类 似 表 10.5 的 形式 来 表示 ， 
只 不 过 在 分 类 一 致 性 信 度 的 计算 中 ， 表 10.5 中 测验 A 和 B 是 
指 周 一 测验 的 两 次 施 测 或 等 值 的 两 个 复 本 ,而 在 这 里 的 效 度 计 
算 中 测验 A 和 B 一 是 指 预 测 源 测 验 ， 另 一 是 指 效 标 测 验 ， 而 
所 谓 决 策 效 度 即 指 在 预测 源 测验 和 效 标 测 验 中 均 通 过 和 均 不 通 
过 的 被 试 人 数 百 分 比例 。 

由 于 目标 参照 测验 在 多 数 情 况 下 是 对 于 被 试 在 特定 教学 或 
训练 内 容 上 的 掌握 情况 的 检查 ， 因 而 人 们 较 少 关注 测验 目的 所 
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殖 含 的 理论 构想 局 题 。 况 且 ， 常 模 参照 测验 的 结构 效 度 评估 大 
多 是 以 相关 系数 为 基础 ， 不 适用 于 目标 参照 测验 。 所 以 ， 关 于 
目标 参照 测验 的 结构 效 度 ， 目 前 尚未 得 到 较 大 关注 。 


第 四 节 ”测验 分 数 的 解释 
一 一 分 数 分 界 点 的 确定 


回顾 目标 参照 测验 的 定义 ， 其 测验 结果 是 参照 菜 一 明确 界 
定 的 行为 标准 进行 解释 的 ， 这 一 标准 就 是 测验 分 数 的 分 界 点 ， 
亦 称 切 害 分数线 ， 或 称 及 格 线 。 根 据 分 数 分界 点 ， 可 以 将 被 试 
进行 分 类 ， 通 常 分 为 “及 格 ” 和 “不 及 格 ”两 类 。 在 这 样 的 分 
类 过 程 中 ， 分 界 点 的 确定 是 至 关 重 要 的 。 

事实 上 ,就 目标 参照 测验 本 身 而 言 ， 分 数 分 界 点 并 非 必 
需 。 我 们 可 以 用 “被 试 掌握 了 测验 的 内 容 范 围 的 百 分 之 多 少 ” 
来 解释 被 试 的 分 数 ， 而 不 必 在 测验 分 数 这 一 连续 体 上 寻找 某 个 
切割 点 ， 进 而 将 被 试 断然 分 为 两 类 : 掌握 者 或 非 掌握 者 。 一 般 
来 说 ， 人 们 倾向 于 认为 知识 的 学 习 是 一 个 连续 的 过 程 ， 知 识 的 
掌握 也 只 是 一 个 程度 的 问题 ， 因 而 从 理论 上 说 并 不 存在 可 以 清 
晰 乓 别 的 掌握 者 或 “ 非 掌 握 者 "。 这 使 得 分 数 分 界 点 的 确定 成 
为 测量 学 家 们 和 争议 最 大 ， 存 疑 最 多 的 问题 。 

然而 、 在 目标 参照 测验 的 实际 应 用 中 ， 分 数 分 界 点 的 确定 
却 是 无 法 逃避 的 问题 。 在 教育 领域 ， 我 们 常常 需要 根据 测验 结 
果 来 判断 : “ 某 学 生 是 否 达到 了 升 一 个 年 级 (或 小 学 、 初 中 、 
高 中 、 大 学 毕业 等 ) 所 要 求 掌握 的 最 低 知识 技能 水 乎 "， 从 而 
对 该 学 生 “ 升 级 ”或 “留级 "，、“ 毕 业 ” 或 “ 峡 业 ” 等 作出 决 
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策 ; 在 专业 领域 ， 也 常 需要 根据 资格 或 水 平 考试 结果 来 判断 考 
生 是 否 达 到 从 事 特 定 专业 工作 所 需 的 最 低 水 平 ， 从 而 作出 是 否 
给 予 颁发 合格 证 书 的 决策 。 在 这 些 实际 需要 中 ， 我 们 不 得 不 去 
寻找 一 个 最 低 标准 ， 一 个 分 数 分 界 点 或 及 格 线 ， 将 考生 分 为 及 
格 或 不 及 格 两 类 。 而 且 ， 这 一 分 界 点 的 确定 科学 与 否 ， 直 接 决 
定 了 我 们 最 终 决 策 的 正确 与 否 。 因 此 ， 探 索 分 数 分 界 点 的 确定 
方法 是 必要 而 且 重 要 的 。 

馈 今 为 止 ， 测 量 学 家 已 经 提出 了 许 许 多 多 的 分 数 分 界 点 的 
确定 方法 ， 这 些 方法 各 有 利 秽 。 现 介绍 其 中 比较 常用 的 几 种 方 
法 如 下 。 - 


这 种 方法 是 在 测验 的 内 容 范 围 明确 界定 的 基础 之 上 ， 由 专 
家 来 判断 处 于 临界 水 平 的 被 试 在 每 一 题目 上 正确 回答 的 可 能 
性 , 进一步 以 此 为 标准 确定 分 数 分 界 点 。 所 谓 临 界 水 平 的 被 
试 ， 是 指 那些 刚 由 未 掌握 水 平 转 人 掌握 水 平 的 被 试 ， 这 些 被 试 
实际 上 是 在 专家 的 想象 中 虚拟 出 来 的 。 

具体 评定 方法 主要 有 以 下 两 种 : 


(一 ) Nedelsky 方法 

此 法 由 Nedelsky (1954) 所 出 ， 针 对 由 多 重 选择 题 组 成 的 
测验 而 言 ， 由 专家 来 判断 处 于 临界 水 平 的 被 试 在 每 一 题 上 有 能 
力 排除 的 错误 选择 项 ， 从 而 计算 其 正确 回答 的 可 能 性 ， 再 求 出 
每 一 题 上 正确 同 答 的 可 能 人 性 之 和 ， 即 为 测验 分 数 分 界 点 。 例 
如 ， 某 测验 由 四 择 一 选择 题 组 成 ， 某 题 &、B、C、D 四 个 答 
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一 


案 中 A 是 唯一 正确 的 答案 。 若 专家 判定 处 于 交 界 水 平 的 被 斌 
应 该 可 以 正确 排除 B 和 D 两 个 选择 项 ， 那 么 在 该 题 上 正确 回 
管 的 可 能 性 为 1/ (4-2) =0.5。 最 后 再 对 每 一 题 求 和 ， 可 得 
及 格 线 ， 若 请 若干 专家 同时 评定 ， 则 可 以 这 些 专 家 所 评定 的 及 
格 线 的 平均 值 作 为 最 终 及 格 线 。 


(二 》Angoff 方法 

此 法 由 Angoff (1971)》 提 出 ， 由 专家 直接 判断 处 于 临界 水 
平 的 被 试 在 某 测验 的 每 一 题目 正确 作答 的 可 能 性 〈 记 为 Pi)， 
设 每 一 题 的 满分 为 Fl， 则 该 测验 的 分 数 分 春 点 〈 记 为 和 ) 为 : 

入 = DF;P; 

表 10.6 是 利用 Angoff 方法 确定 测验 分 数 分 界 点 的 实例 ， 
此 例 中 假设 测验 欲 测 五 个 目标 内 容 ， 记 为 -全 ， 且 测验 共有 
十 道 题目 组 成 。 


E23 10.6 Angoff 方法 示例 


题 导 目标 内 容 题目 满分 (F;) 界 水 平 (Pi:) FP; 
1 $9 2 .9 1.8 
2 ©@ 6 .7 4.2 
3 © 6 .75 4.5 
4 ©® 10 .8 8 
5 四 6 .了 4.2 
6 @ 12 .65 7.8 
7 外 12 .6 7.2 
8 全 18 .55 9.9 
9 二 10 .6 6 
10 © 18 5 9 


SF;= 100 入 = DFiP;=62.6 


一 
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此 例 及 格 线 为 62.6 分 ， 即 在 测验 中 得 分 在 62.6 分 以 上 的 
被 试 评定 为 掌握 者 ， 反 之 出 为 非 掌握 者 。 同 样 ， 如 果 有 多 位 专 
家 同时 评定 ， 则 以 这 些 专家 评定 的 平均 及 格 线 为 测验 最 终 及 格 
线 。 

比较 Nedelsky 法 和 Angoff 法 ， 前 者 显然 使 专家 的 评定 受 
到 限制 ， 若 针对 四 择 一 选择 题 ， 专 家 评定 的 P; 值 只 可 能 为 
0.25, 0.33,，0.50 和 1.00， 而 Angoff 法 中 的 P; 则 可 在 0 一 
1.00 之 间 任 意 取 值 ， 而 且 适 宜 于 各 种 题 型 。 因 而 Angoff 法 在 
实际 运用 中 更 受 欢迎 。 


二 、 效 标 组 预测 法 


《一 ) 临界 组 法 

由 专家 判定 和 选择 一 组 正 处 于 临界 水 平 的 被 试 ， 将 测验 施 
测 于 该 组 被 试 ， 计 算 他 们 在 测验 上 的 平均 成 绩 ， 以 体现 测验 的 
内 容 范 围 所 要 求 的 临界 水 平 ， 因 而 可 以 视 之 为 测验 分 数 分 界 点 
的 估计 值 。 

采用 这 种 方法 的 困难 在 于 临界 水 平 被 试 的 选择 与 评定 ， 一 
来 要 选 出 一 定数 目的 临界 水 平 被 试 必须 先 随机 选取 大 量 被 试 作 
为 息 选 ， 二 来 对 被 试 是 否 正 处 于 临界 水 平 很 难 找到 客观 而 统一 
的 标准 ， 非 常 抽象 而 主观 。 因 而 此 法 的 应 用 在 实际 中 是 受到 一 
定 限 制 的 。 


(二 ) 对 照 组 法 
此 法 同样 先 采取 专家 判定 的 方法 来 选择 被 试 ， 只 是 这 里 要 
事先 确定 两 组 被 坛 ， 一 组 被 明确 判定 为 掌握 组 ， 另 一 组 则 被 明 
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确 判 定 为 非 掌 握 组 ， 那 些 不 太 容易 被 判定 为 “掌握 ”或 “ 非 党 
握 ” 的 被 试 一 概 剔除 。 对 这 样 两 组 被 试 施 测 测验 ， 可 得 到 如 图 
10.1 所 示 的 原始 分 数 分 布 图 。 图 中 两 条 分 布 曲线 的 交叉 点 如 
为 测验 分 数 分 界 点 (此 图 60 分 为 测验 分 数 分 界 点 )。 


分 界 点 


湾 盖 中 财 


10 20 30 40 50 60 70 80 90 100 
测验 分 数 


图 10.1 对 照 组 分 数 分 界 点 标定 法 示意 图 


由 于 采用 此 法 所 标定 的 分 数 分 界 点 在 很 大 程度 上 会 受到 所 
取 被 试 团体 的 影响 ， 因 此 更 合理 的 做 法 是 选取 若干 对 对 照 组 ， 
取 每 对 对 照 组 交叉 点 分 数 的 平均 值 作为 测验 分 数 分 界 点 。 

由 于 判定 被 试 为 “掌握 ”或 “ 非 掌 握 ” 比 判定 其 是 否 处 于 
临界 水 平 要 容易 很 多 ， 因 而 对 照 组 法 应 用 更 广 。 也 有 人 提出 对 
照 组 的 被 试 不 用 经 过 专家 判断 ， 直 接 取 “ 已 接受 相应 教学 组 ” 
”和 “未 接受 相应 教学 组 ”"， 再 以 同样 方法 获得 分 界 点 值 。 这 种 
方法 虽然 克服 了 专家 判断 所 带 来 的 主观 性 ， 但 似乎 带 来 更 多 的 
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问题 :如何 确定 “已 接受 教学 组 ”里 的 被 试 是 否 都 已 掌握 了 所 
教 内 容 ? 又 如 何 确定 “未 接受 教学 组 ”里 的 被 试 是 否 的 确 没有 
一 个 人 掌握 了 相应 内 容 ? 这 些 问题 的 存在 使 得 由 此 得 到 的 分 界 
点 的 可 靠 程 寞 反而 招致 更 多 的 怀疑 。 

总 之 ， 在 上 述 各 种 测验 分 数 分 界 点 的 确定 过 程 中 ， 专 家 评 
定 始终 占据 一 定 的 位 置 ， 这 就 使 得 分 界 点 带 有 一 定 的 主观 色 
彩 ， 这 也 是 人 们 对 分 界 点 的 确定 争论 不 休 的 主要 原因 之 一 。 对 
此 ， 一 般 应 采取 多 位 专家 评定 的 方法 ， 综 合 多 位 专家 的 意见 ， 
使 分 界 点 尽 可 能 地 合理 与 有 效 。 

关于 目标 参照 测验 的 分 数 解释 ， 我 们 注重 的 是 被 试 在 所 测 
内 容 领 域 的 绝对 掌握 水 平 ， 并 常 根 据 实际 需要 而 将 被 试 在 分 数 
分 界 点 上 分 为 “合格 ”或 “不 合格 ”两 类 。 但 是 ， 值 得 注意 的 
是 ， 对 于 目标 参照 测验 的 分 数 解释 ， 有 了 时 并 不 排除 同时 采用 一 
些 常 模 参照 测验 的 分 数 解 释 方法 。 目 标 参照 测验 和 常 模 参 照 测 
验 虽然 是 两 种 不 同 的 测验 模式 ,但 它们 并 非 互 不 相 容 ， 当 我 们 
既 对 被 试 在 测验 中 的 绝对 水 平 感 兴趣 ， 同 时 又 想 了 解 被 试 的 成 
绩 在 其 所 处 团体 中 的 相对 位 置 时 ， 该 测验 便 兼 具 了 目标 参照 测 
验 和 常 模 参 照 测 验 的 性 质 ， 对 其 测验 分 数 ， 则 了 既 可 以 采取 上 述 
方法 来 解释 ， 同 时 又 可 以 采取 常 模 参照 测验 的 方法 给 出 其 百 分 
等 级 等 有 关 相 对 位 置 的 信息 。 


练习 与 思考 


1. 请 报 据 表 10.3 中 专家 评定 结果 的 平均 数 对 表 中 14 道 
题目 的 内 容 效 度 进行 评定 ， 并 决定 题目 取舍 。 

2. 目标 参照 测验 的 题目 区 分 度 可 以 通过 哪些 方法 来 确定 ? 

3. 目标 参照 测验 的 信 度 与 效 度 为 何不 适宜 以 相关 系数 为 
指标 ? 
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4. 试 比 较 目 标 参 照 测验 与 常 模 参 照 测验 的 异同 。 

5. 试 分 析 内 容 范围 的 界定 在 目标 参照 测验 的 标准 化 过 程 
中 的 重要 性 。 

6. 试 分 析 分 数 分 界 点 在 目标 参照 测验 的 质量 评估 中 的 作 
用 。 

7. 试 析 题 目 内 容 效 度 与 目标 参照 测验 的 内 容 效 度 间 的 联 
系 。 
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本 章 提 要 : 

合 学 绩 测验 的 性 质 、 作 用 与 分 类 
鲁 标 准 化 学 绩 测 验 的 性 能 与 编制 
全 题库 与 题库 建设 


便 史 坦 福成 就 测验 与 关键 数学 算术 诊断 测验 
傅 教 师 自 编 课堂 测验 
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第 一 节 “学 绩 测验 概述 


前 述 各 章 我 们 向 读者 详细 介绍 了 心理 与 教育 测量 的 一 系列 
基本 原理 和 各 种 计量 分 析 技 术 。 从 本 章 起 我 们 将 根据 所 测 心理 
品质 的 不 同 向 读者 具体 介绍 儿 种 重要 的 心理 与 教育 测验 。 

首先 介绍 学 绩 测验 。 学 绩 测验 是 心理 教育 测验 中 发 展 比较 
时 的 一 种 测验 。 据 史书 记载 ， 早 在 我 国 的 西周 就 初步 建立 了 学 
校 教育 制度 ， 那 时 国学 中 的 大 学 就 已 设置 了 定期 的 学 业 考试 。 
学 校 考 试 沿 袭 至 汉 朝 时 ， 太 学 中 已 经 订 有 严格 的 考试 制度 ， 武 
帝 时 规定 一 年 考 一 次 ， 到 东汉 恒 帝 时 改 为 “二 岁 一 试 "。 太 学 
考试 的 方法 有 “口试 "、“ 策 试 "、“ 射 策 ” 等 3 种 ， 通 过 考试 者 
毕业 时 按 成 绩 授 予 不 同 的 官职 。 我 国 历史 上 沿 效 了 1300 年 之 
和 久 的 科举 考试 是 当时 世界 上 规模 最 大 、 影 响 也 最 大 的 ， 由 国家 
组 织 的 学 绩 测 验 。 在 西方 ， 古代 有 名 的 教育 家 、 哲 学 家 苏 格 拉 
底 在 授课 时 就 采用 了 口试 方法 。 中 世纪 的 欧洲 ， 各 大 学 均 以 品 
试 作为 毕业 成 绩 考 核 的 方法 。18 世纪 末 19 世纪 初 ， 欧 美 各 国 
也 开始 实行 用 学 绩 测 验 考核 官吏 的 文官 考试 制度 。 

学 绩 测 验 源远流长 、 它 基本 上 是 与 学 校 教育 同步 产生 的 。 
学 绩 测 验 应 教育 的 需要 而 产生 ， 是 服务 于 教育 的 一 种 重要 手 
段 ， 也 是 教育 过 程 中 的 一 个 重要 环节 。 学 绩 测 验 在 当今 世界 上 
应 该 是 应 用 最 为 广泛 、 最 为 频繁 的 心理 与 教育 测验 了 : 各 级 各 
类 学 校 的 各 种 学 科 测 验 、 招 生 考试 ， 各 级 各 类 行政 企 事 业 单 位 
的 招 干 、 招 工 考 试 ， 各 行 各 业 的 上 岗 、 晋 职 考试 都 属于 学 绩 测 
验 的 范 转 。 当 今 社会 一 个 人 从 求学 到 逮 休 ， 恺 怕 很 少 不 经 历 过 
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数 十 次 万 至 数 百 次 的 学 绩 测 验 考试 的 。 有 的 人 今天 当主 试 ， 明 
天 又 成 了 被 坛 ， 后 天 可 能 又 是 主 试 了 。 因 此 ， 学 绩 测验 也 是 人 
们 最 为 熟悉 的 一 种 心理 与 教育 测验 。 测 量 学 者 历来 就 非常 重视 
对 学 绩 测 验 的 研究 ， 在 学 绩 测 验 的 原理 和 编制 技术 的 研究 上 都 
取得 了 很 大 的 成 功 。 由 于 学 绩 测 验 的 内 容 和 形式 都 非常 丰富 ， 
社会 对 于 学 绩 测 验 的 需求 也 各 种 各 样 ， 因 此 我 们 更 应 该 重视 对 
学 绩 测 验 理论 的 研究 。 


一 、 学 绩 测 验 的 性 质 


“学 绩 ” 一 词 通常 是 指 个 体 经 过 对 某 种 知识 或 技术 的 学 习 
或 训练 之 后 所 取得 的 “成 绩 ”， 一 般 表现 为 个 体 心理 品质 在 知 
识 、 技 能 或 某 种 能 力 方面 的 增加 和 提高 ， 是 个 体 认 识 性 心理 品 
质 的 发 展 。 无 论 个 和 体 学 习 的 知识 或 技术 的 内 容 是 什么 ， 也 无 论 
个 体 采 取 的 学 习 或 训练 形式 是 什么 ,我 们 都 会 对 个 体 的 知识 增 
长 量 和 技术 能 力 增长 量 感 兴趣 ， 都 希望 能 对 个 体 的 知识 、 技 能 
增长 量 或 是 当前 的 知识 、 技 能 发 展 水 平 进 行 数 量化 的 测定 ， 这 
就 是 学 绩 测验 的 自 的 。 

学 绩 测 验 是 对 个 体 在 一 个 阶段 的 学 习 或 训练 之 后 知识 、 技 
能 的 发 展 水 平 的 测定 。 学 绩 测 验 与 一 般 的 心理 测验 不 同 。 一 般 
的 心理 测验 所 测 的 往往 是 为 个 体 各 种 经 验 积累 以 后 的 一 般 心 理 
发 展 水 平 ， 有 的 甚至 要 排除 那些 “专门 ”的 学 习 或 训练 的 影响 
而 测 个 体 “ 稳 定 不 变 ” 的 心理 品质 。 学 绩 测 验 则 相反 ， 它 更 希 
望 测量 个 体 通 过 一 次 或 一 个 时 期 的 学 习 训练 之 后 ， 这 种 专门 的 
知识 和 技能 的 发 展 水 平 。 理 论 上 甚至 认为 ， 学 绩 测 验 所 测 之 内 
容 不 经 过 专门 的 学 习 和 训练 ， 其 测 值 应 该 几乎 为 等 。 若 不 是 这 
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样 ， 则 所 编制 的 学 绩 测 验 是 低 质量 的 、 不 成 功 的 。 

学 绩 测 验 与 能 力 测验 一 样 在 测量 学 中 属于 最 佳 行为 测验 。 
最 佳 行为 测验 施 测 时 要 求 被 试 调动 他 所 学 的 一 切 知识 、 所 具备 
的 一 切 技术 和 能 力 ， 对 所 有 试题 给 出 最 佳 答案 或 最 佳 操作 。 从 
这 个 角度 看 ， 主 试 与 被 试 的 目的 是 完全 一 致 的 ， 都 是 为 了 测 出 
被 试 的 最 高 发 展 水 平 。 因 此 ， 编 制 学 绩 测 验 对 于 主 试 来 说 就 是 
要 设计 出 与 被 试 认 知 特质 紧密 相关 的 试题 并 组 拼 成 试卷 ， 通 过 
施 测 、 评 阅 将 被 试 的 认 知 发 展 水 平 与 一 个 数字 系统 中 的 某 个 确 
定 值 相对 应 ， 以 便 区 别 被 试 的 水 平 差异 。 与 典型 行为 测验 不 一 
样 ， 学 绩 测验 不 用 担心 被 试 在 测验 上 故意 掩盖 自己 的 行为 水 
平 ， 相 反 却 担心 所 编 测验 达 不 到 诱发 被 试 发 挥 出 最 高 水 平 的 目 
的 。 当 然 学 绩 测 验 也 要 防止 被 试用 犹 题 、 押 题 等 “针对 性 ”的 
学 习 和 训练 获取 “好 ”成 绩 的 现象 。 

学 绩 测 验 所 测 为 认 知 性 心理 品质 。 认 知性 心理 上 品质 的 优 劣 
表现 在 两 个 方面 : 一 方面 是 认 知 内 容 的 多 赛 ， 一 方面 是 认 知 能 
力 的 高 低 也 就 是 我 们 通常 所 说 的 知识 与 能 力 两 个 方面 。 学 绩 测 
验 发 展 至 今 , 已 经 比较 重视 开发 测 知 识 与 测 能 力 并 重 的 测验 ， 
纯 测 知识 的 测验 已 不 受 人 们 的 欢迎 。 但 是 学 绩 测 验 与 一 般 的 能 
力 测验 又 不 相同 。 能 力 测验 往往 更 强调 所 测 为 “一 般 能 力 ， 
而 排除 知识 ， 特 别 是 “专门 ”知识 的 影响 。 尽 管 能 力 测 验 实 际 
上 也 要 通过 测 被 试 对 知识 的 理解 、 应 用 等 操作 行为 而 实现 ， 但 
其 重心 是 在 能 力 。 而 学 绩 测验 却 是 知识 与 能 力 并 重 ， 即 使 测 能 
力 ， 也 是 测 对 所 学 专门 知识 的 理解 、 应 用 等 能 力 。 我 们 不 能 把 
学 绩 测验 编制 成 一 般 能 力 测验 。 

学 绩 测验 通常 用 于 对 个 体 经 学 习 、 训 练 之 后 学 习 成 绩 的 监 
定 和 诊断 ， 有 时 也 用 来 预测 被 试 在 今后 的 学 习 或 工作 中 的 成 
就 ， 但 是 它 与 一 般 的 性 向 测验 又 有 不 同 。 学 绩 测 验 是 针对 一 有 
计划 的 学 习 或 训练 之 后 的 成 绩 的 测定 而 设计 的 ， 所 测 认 知 能 力 
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较 具 特殊 性 ， 即 使 用 来 预测 ， 也 是 由 于 所 预测 的 学 习 或 工作 与 
这 种 特殊 的 学 习 或 训练 紧密 相关 。 

一 般 性 向 测验 往往 开始 于 某 种 专门 的 学 习 或 训练 之 前 ， 希 
望 测试 被 试 在 以 往 的 生活 经 验 中 获得 了 多 少 与 这 专门 学 习 或 训 
练 有 关 的 能 力 ， 以 预测 被 试 在 即将 开始 的 学 习 或 训练 中 的 成 
就 。 人 性 向 测验 所 测 认 知 能 力 较 具 广泛 性 ， 有 时 还 带 有 情感 因 
索 ， 其 根本 目的 是 要 为 被 试 能 不 能 参加 这 种 专门 学 习 或 训练 提 
供 依据 。 


二 、 学 绩 测验 的 作用 


学 绩 测 验 的 作用 非常 明显 ， 学 校 使 用 学 绩 测 验 鉴 定 学 生 的 
学 业 成 绩 。 学 生 经 过 一 个 阶段 的 学 习 ， 到 底 获 得 了 多 少 知识 ， 
提高 了 多 大 的 能 力 ， 可 以 通过 学 绩 测验 进行 测定 。 学 绩 测 验 的 
结果 反馈 给 学 生 ， 学 生 可 以 总 结 学 习 经 验 ， 纠 正 不 足 ， 利 于 学 
生 进 一 步 学 习 ; 学 绩 测 验 结果 反馈 给 教师 ， 教 师 可 以 总 结 教学 
经 验 ， 利 于 教师 进一步 改进 教学 。 学 校 还 使 用 学 绩 测验 甄别 学 
习 困 难 儿 童 ， 诊 断 学 生 学 习 困 难 的 原因 ， 以 便 及 时 制定 和 采取 
补救 措施 ， 帮 助 学 生 全 面 掌握 所 学 知识 ， 全 面 提高 专业 能 力 。 
学 校 还 应 用 学 续 测 验 辅助 教学 管理 。 升 学 、 毕 业 、 升 级 、 留 
级 、 划 分 班级 组 别 都 需要 学 绩 测 验 的 信息 。 现 代 社 会 的 人 事 管 
理 也 应 用 学 续 测 验 。 人 员 取 录 、 普 职 提 级 都 可 以 利用 学 续 测 
验 ， 以 测验 成 绩 作 为 重要 的 取舍 依据 。 没 有 学 绩 测验 提供 准确 
的 信息 ， 教 育 管理 会 陷 人 混乱 ， 人材 使 用 就 会 陷于 盲目 和 造成 
浪费 ， 人 力 资源 难以 得 到 合理 配置 。 教 育 科学 研究 也 需要 学 绩 
测验 。 教 育 科 研 工作 者 利用 学 绩 测 验 信息 评价 教育 决策 、 优 选 
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教育 方案 ， 为 教育 的 改革 和 发 展 作出 独特 的 贡献 。 


三 、 学 绩 测 验 的 分 类 


(一) 按 测验 的 编制 方法 分 

按 测验 的 编制 方法 可 以 把 学 绩 测 验 分 为 教师 自 编 课堂 测验 
和 标准 化 学 线 测验 两 大 类 。 教 师 自 编 课 堂 测验 由 教师 根据 自身 
经 验 编制 ， 所 测 内 容 可 多 可 少 ， 时 间 可 短 可 长 ， 主 要 施用 于 自 
己 的 学 生 ， 紧 密 结 合 教材 和 教学 实际 ， 形 式 活 泌 多 变 ， 可 用 来 
考查 学 生 学 习 情况 ， 也 可 用 来 检查 教师 教学 质量 ， 甚 至 可 以 用 
来 预测 学 生 未 来 成 就 。 但 教师 自 编 课 堂 测验 应 用 范围 较 小 ， 不 
能 在 大 范围 内 对 学 生 进行 比较 ,大 多 数 教师 只 有 专业 知识 而 没 
有 测量 学 知识 ， 仅 赁 个 人 经 验 命题 ， 随 意 性 大 ， 效 果 往 往 不 理 
想 。 标 准 化 学 绩 测验 由 测量 学 专家 与 学 科教 师 按 测量 学 基本 原 
理 编制 ， 有 一 定 的 质量 指标 做 保证 ， 能 提供 常 模 作 比 较 ， 客 观 
性 强 ， 可 用 于 大 规模 正规 测试 。 但 是 标准 化 学 绩 测 验 编制 费时 
费力 ， 灵 活性 和 针对 性 均 不 强 。 因 此 ， 学 校 教育 中 使 用 更 多 的 
还 是 教师 自 编 课 堂 测验 。 


(二 ) 按 测验 内 容 分 

按 测验 的 内 容 对 学 绩 测验 进行 分 类 通常 是 以 材料 内 容 所 涉 
及 的 学 科 分 。 有 单 科 测验 如 语文 测验 、 数 学 测验 、 生 物 测验 等 
等 ， 也 有 多 科 测验 。 多 科 测验 常 以 组 合 测验 形式 出 现 ， 比 如 某 
一 个 年 级 的 综合 测验 ， 包 括 几 个 学 科 分 测验 。 多 科 测 验 用 以 评 
价 学 生 的 总 体 水 平 。 

按 测验 内 容 分 类 也 有 以 内 容量 的 多 赛 分 的 ， 如 单元 测验 、 
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总 测验 等 。 


(三 ) 按 测 验 的 用 途 分 

按 测 验 的 用 途 可 把 学 绩 测 验 分 为 考查 性 测验 和 诊断 性 测验 
两 大 类 。 考 查 性 测验 主要 用 于 对 学 生 学 习 结 果 的 鉴定 。 学 较 的 
单元 测验 、 期 中 测验 、 学 科 结 业 测 验 ， 社 会 的 招生 考试 、 招 工 
考试 、 提 职 晋级 考试 都 是 考查 性 学 织 测 验 。 诊 断 测验 主要 用 来 
测 查 学 生 在 各 个 具体 教学 内 容 、 教 学 目标 上 学 习 的 长 处 剩 
点 ， 分 析 学 生 学 习 困 难 的 原因 ， 并 提出 相应 补救 错 施 。 诊 断 测 
验 多 以 单 科 内 容 为 测验 材料 ， 编 制 时 都 是 从 非常 细微 的 地 方 人 
手 ， 以 获取 详细 的 信息 。 诊 断 测验 在 对 学 习 障 碍 儿童 、 学 习 组 
人 馒 儿 童 的 鉴别 评定 上 也 具有 较 高 的 实用 价值 。 


(四 》 按 测验 评分 的 参照 系 分 

按 所 编 测 验 评 分 系统 的 参照 系 不 同 可 把 学 绩 测验 分 成 常 模 
参照 性 测验 和 目标 参照 性 测验 两 大 类 。 常 模 参照 性 学 绩 测 验 以 
学 生 伙伴 总 体 为 参照 系 ， 以 学 生 在 伙伴 中 的 相对 位 置 评价 学 生 
的 学 习 成 就 。 目 标 参 照 性 测验 以 教材 和 大 纲 为 参照 系 ， 以 学 生 
有 否 达 到 教材 与 教学 大 网 规定 的 教学 目标 来 评价 学 生 的 学 习 成 
就 。 常 模 参 照 性 学 绩 测 验 易 于 横向 比较 ， 常 用 于 选拔 性 目的 的 
测量 ; 目标 参照 性 测验 以 教学 目标 为 准 ， 常 用 于 鉴定 学 生 的 合 
格 与 否 。 


(五 ) 按 测验 的 题 型 分 

学 绩 测 验 可 使 用 的 试题 大 致 可 分 为 定向 反应 型 和 自由 及 应 
型 两 大 类 ， 习 惯 上 又 分 称 为 客观 型 试题 和 论文 式 试题 ， 因 此 也 
有 把 学 绩 测验 分 为 客观 测验 和 论文 式 测验 两 类 的 。 两 大 类 题 弄 
的 性 质 与 功能 在 第 三 章 已 作 详细 分 析 ， 并 证 明 两 类 题 型 闻 有 互 
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补 作用 。 因 此 我 们 建议 ， 不 是 有 特殊 需要 ， 不 要 使 用 单一 式 的 
试题 组 成 学 统 测验 ， 还 是 以 两 大 类 题 型 配合 使 用 为 佳 ， 至 于 测 
验 中 两 类 题 型 之 比 ， 可 根据 情况 作 适 当 调 整 。 

学 绩 测 验 还 可 根据 一 次 施 测 的 被 试 多 少 分 为 团体 测验 与 个 
别 测验 两 种 ; 还 可 根据 被 试 反应 的 行为 方式 分 为 口试 、 笔 试 和 
实验 操作 等 3 种 。 操 作 测验 在 技术 、 技 能 测验 中 应 用 较 多 。 特 


别 值 得 提 及 的 是 一 种 新 的 测验 形式 ， 即 在 计算 机 上 进行 的 测 


验 。 这 种 测验 不 是 对 被 试 的 计算 机 知识 或 操作 水 平 进行 测定 ， 
而 是 利用 计算 机 进行 其 它 学 科 的 测验 ， 故 称 其 为 计算 机 化 测 
验 。 计 算 机 化 测验 在 形式 上 把 命题 、 组 着 、 出 示 试 题 、 考 生 作 
答 、 评 分 等 一 系列 的 测验 管理 工作 集中 在 一 起 一 次 完成 ， 可 节 
省 大 量 的 人 力 、 物 力 ， 而 且 评分 客观 、 公 正 ， 保 密 性 能 好 。 若 
配 以 辅助 设备 ， 有 些 操作 性 测验 也 可 以 在 计算 机 管理 下 完成 。 
计算 机 化 测验 是 测验 科学 与 计算 机 技术 相 结合 的 产物 ， 表 现 出 
众多 的 优良 性 能 ， 受 到 社会 的 欢迎 。 
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在 心理 与 教育 测量 学 头 理 指导 下 ， 遵 循 一 定 的 程序 所 编制 
的 各 方面 质量 都 达到 规定 标准 的 学 绩 测 验 ， 称 为 标准 化 学 绩 测 
验 。 长 期 以 来 人 们 对 于 仅 插 主观 经 验 编制 的 各 种 学 绩 测 验 的 批 
评 一 直 都 是 比较 激烈 的 。 人 们 认为 这 类 测验 的 测验 目标 不 骨 
确 、 测 验 内 容 不 统一 、 测 验 的 标准 不 一 致 、 测 验 的 结果 不 精 
确 ， 人 们 希望 能 编制 出 目标 明确 、 标 准 一 致 、 精 确 性 高 的 新 济 
验 。 标 准 化 测验 就 是 应 这 一 要 求 而 产生 的 。 标 准 化 测验 在 许多 
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国家 应 用 比较 广泛 ， 在 我 国 也 越 来 越 受 到 重视 ， 我国 高 考 的 标 
准 化 试验 研究 就 是 国内 影响 最 大 的 编制 标准 化 学 绩 测验 的 尝 
试 。 本 节 重 点 就 是 对 标准 化 学 绩 测 验 作 一 深入 的 介绍 。 


一 、 标 准 化 学 绩 测验 的 基本 要 求 


一 份 测验 能 称 为 标准 化 测验 ， 最 起 码 要 符合 以 下 几 方面 的 
要 求 。 

第 一 是 命题 组 卷 标准 化 。 标 准 化 试卷 的 所 有 试题 都 是 经 过 
精心 编制 的 ， 试 题 测量 目标 明确 ,语词 意义 清晰 ， 试 题 难度 、 
区 分 度 达到 规定 标准 。 标 准 化 试卷 全 卷 结构 与 测量 的 目标 系统 
一 致 ， 知 识 覆 盖 面 宽 ， 题 型 比例 恰当 ， 题 量 适 度 ， 试 题 难度 分 
布 符合 规定 要 求 ， 试 卷 的 信和 度 、 效 度 都 达到 规定 标准 。 标 准 化 
测验 通常 还 要 备 有 等 值 复 份 。 命 题 组 卷 标准 化 的 目的 是 提供 一 
份 高 质量 的 测验 试卷 。 

第 二 是 施 测 标准 化 。 标 准 化 测验 必须 在 统一 标准 的 环境 下 
施 测 。 统 一 标准 环境 包括 测验 场所 的 标准 统一 、 测 验 时 间 统 
一 、 测 验 的 指导 语 统 一 、 提 供给 考生 的 测验 材料 统一 、 材 料 出 
示 的 顺序 统一 。 有 的 标准 化 测验 还 包括 考 前 给 考生 提供 统一 的 
考试 大 纲 ， 考 后 提供 统一 的 标准 答案 。 测 验 场所 的 标准 统一 既 
包括 场所 外 环境 又 包括 场所 内 环境 。 外 环境 包括 噪音 指数 、 温 
度 指数 、 湿 度 指数 等 等 ; 内 环境 包括 空间 、 面 积 大 小 ， 主 试 被 
试 人 数 ， 主 试 被 试 位 置 及 被 试 与 被 试 的 位 置 间隔 等 等 。 施 测 标 
准 化 的 目的 是 给 被 试 提供 一 个 公平 、 优 良 的 施 测 环 境 。 

第 三 是 评分 标准 化 。 标 准 化 测验 的 评分 在 测验 编制 的 同时 
就 要 制定 好 标准 答案 和 评分 规则 。 标 准 答案 要 正确 、 规 范 ， 最 
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好 是 唯一 。 评 分 规则 应 尽量 细致 、 客 观 ， 最 好 是 没有 伸缩 性 。 
如 果 人 工 阅 卷 ， 要 求 阅卷 者 有 高 度 的 责任 心 ， 有 较 高 的 业务 水 
平和 较 强 的 评判 能 力 ， 要 能 够 尽量 维护 评分 标准 的 一 臻 性。 大 
规模 阅卷 还 必须 先进 行 阅卷 培训 ， 统 一 认识 ， 统 一 标准 。 阅 卷 
时 采用 流水 作业 法 ， 并 加 强 自 查 和 复查 。 标 准 化 测验 能 够 应 用 
机 械 阅 卷 的 应 尽量 采用 机 械 阅卷 以便 提高 工作 效率 ， 降 低 阅 
卷 误差 。 评 分 标准 化 的 目的 是 提高 测验 评分 的 精度 。 

第 四 是 测验 分 数 解释 标准 化 。 对 于 常 模 参 照 性 测验 ， 其 意 
是 编制 测验 时 必须 搜集 常 模样 本 ， 编 制 好 测验 常 模 。 测 验 党 模 
供 被 试 查阅 以 便 被 试 准确 评价 自己 的 测验 成 绩 ， 测 验 也 可 直接 
将 被 试 的 常 模 分 数 和 通知 被 试 。 对 于 目标 参照 性 测验 其 意 是 在 纺 
制 测验 时 要 认真 研究 教材 和 教学 大 纲 ， 分 析 合 格 标准 的 确切 售 
义 ， 通 过 调整 试卷 难度 结构 准确 划 定 合格 分 数 线 ， 测 验 后 按 被 
试卷 面 得 分 判断 他 是 否 达 到 规定 的 教学 要 求 。 

要 编制 出 符合 要 求 的 标准 化 学 绩 测验 ， 必 须 由 测量 学 者 和 
各 学 科 专 家 共同 合作 ， 根 据 心理 与 教育 测量 学 的 基本 原理 ， 结 
合 学 科 特 点 ， 遵 循 一 定 的 编制 程序 ， 应 用 计量 分 析 手 段 ， 精 心 
设计 、 精 心 命题 、 科 学 组 拼 并 经 过 反复 试验 ， 才 能 获得 成 功 。 


二 、 标 准 化 学 绩 测验 的 编制 


在 前 述 各 章 ， 我 们 已 将 测验 编制 的 基本 原理 及 各 种 计量 分 
析 技 术 逐 一 作 了 介绍 。 编 制 标准 化 学 线 测 验 只 要 在 附加 若 二 标 
准 化 条 件 的 情况 王 ， 将 这 些 原 理 和 技术 应 用 于 学 绩 测验 的 编 
制 。 下 面 我 们 结合 学 绩 测 验 的 特点 将 标准 化 学 绩 测 验 编制 方法 
分 步骤 介绍 如 下 。 
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《一 ) 确定 测验 目的 ， 选 定 测验 编制 的 方法 

编制 标准 化 学 绩 测验 的 首 刘 问题 是 要 确定 测验 目的 ， 即 要 
解决 为 什么 而 测 ， 测 谁 和 测 什 么 的 问题 。 首 先 要 明确 为 什么 而 
测 ， 如 果 是 为 了 考查 学 生 学 习 情 况 ， 则 要 编制 考查 性 学 绩 测 
验 ; 如 果 是 为 了 诊断 学 生 的 学 习 困 难 ， 就 要 编制 诊断 性 测验 。 
同 是 考查 性 测验 还 需 分 清 是 以 比较 考生 优 劣 为 目的 还 是 以 鉴别 
考生 在 学 科学 习 上 是 否 达 到 规定 标准 为 目的 。 若 是 为 了 前 者 ， 
则 要 编制 常 模 参照 性 测验 ， 若 是 后 者 则 要 编制 目标 参照 性 测 
验 。 测 验 的 目的 不 同 ， 测 验 的 性 质 也 不 同 ， 所 依据 的 测验 编制 
原理 也 不 相同 ， 编 制 的 方法 也 就 不 同 ， 是 不 能 混 消 的 。 确 定 测 
验 编制 的 目的 还 要 明确 测 什么 的 问题 。 测 什么 的 问题 包括 所 测 
是 什么 学 科 ， 是 单 科 还 是 多 科 ， 是 部 分 还 是 全 部 。 是 哪 门 学 科 
的 测验 应 该 有 局 门 学 科 的 专家 参与 ， 所 编 测验 也 应 有 那 门 学 科 
的 特色 。 明 确 测 谁 的 问题 也 很 重要 。 测 谁 的 问题 包括 年 擒 年 级 
特征 ， 文 化 背景 特征 等 问题 。 施 测 于 不 同 对 象 的 测验 应 该 有 不 
同 的 编制 特征 ， 具 体 可 表现 在 题 型 选择 、 难 度 层次 、 教 学 目标 
层次 等 多 方面 的 不 同 ， 甚 至 还 会 有 城乡 差异 、 民 族 差异 、 宗 教 
差异 、 语 言 文字 差异 的 表现 。 只 有 把 以 上 问题 一 一 明确 了 ， 才 
能 够 说 测验 的 目的 明确 了 ， 才 能 准确 选择 试 着 编制 的 方法 。 


(二 ) 分 析 测 量 目 标 ， 拟 定 测验 编制 计划 

分 析 测 量 目 标 是 制定 测验 编制 计划 最 重要 ， 也 是 最 因 难 的 
一 项 工作 。 分 析 测 量 目标 要 应 用 到 学 科 专 业 知 识 、 心 理学 与 教 
育 学 理论 知识 ， 还 要 有 较 丰 富 的 教学 实践 经 验 。 通 常 编制 测验 
有 一 个 总 的 测验 目标 ， 但 是 总 目标 往往 太 抽 和 象 、 太 笼统 。 因 
此 ， 要 根据 认 知 理论 将 总 目标 分 解 成 系统 的 认 知 目标 体系 。 这 
项 分 解 工作 既 要 符合 总 目标 的 原则 ， 又 要 尽量 细致 、 明 确 ， 并 
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且 要 尽量 可 操作 化 ， 只 有 这 样 才能 供 实 际 编 题 使 用 。 这 个 认 知 
目标 体系 也 就 是 通常 所 说 的 教学 目标 分 类 体系 ， 它 是 供 编制 测 
验 使 用 的 、 因 此 要 测量 “专业 ”化 一 些 。 国 际 上 比较 流行 的 美 
国教 育 心理 学 家 布 鲁 姆 的 教学 目标 分 类 体系 ， 也 常常 用 来 作为 
测量 目标 分 类 体系 。 但 是 不 顾及 具体 情况 而 全 套 照 搬 是 不 恰当 
的 ， 使 用 时 应 针对 不 同 对 象 、 不 同学 科 作 出 适当 的 调整 。 一 旦 
建成 了 针对 具体 测验 的 测验 目标 分 类 体系 ， 就 可 以 着 手 制定 测 
验 编制 计划 了 。 首 先是 编制 一 份 测验 双向 细 目 表 ， 将 测验 的 内 
容 分 类 与 测验 的 目标 分 类 共 列 于 内 ， 定 出 各 个 分 类 组 合 在 测验 
. 中 的 占 分 比例 。 其 次 应 该 确定 的 是 使 用 题 型 的 种 类 及 各 种 题 型 
的 占 分 比 ， 以 及 全 卷 试题 的 难度 分 布 。 各 项 比例 确定 之 后 还 应 
把 全 着 的 结构 统筹 分 划 ， 定 稿 成 正式 的 测验 编制 计划 。 


(三 》 编 题 征 题 与 选 题 组 将 

试题 是 测验 的 主要 组 成 部 分 ， 是 测验 质量 高 低 的 主要 体 
现 。 试 题 的 来 源 可 以 组 织 学 科 命题 教师 自己 编写 ， 也 可 向 社会 
征集 。 无 论 是 自己 编写 还 是 向 社会 征集 ， 试 题 分 布 都 必须 符合 
测验 编制 计划 所 定 的 测验 结构 ， 特 别 是 要 严格 按照 测验 双向 细 
目 表 的 要 求 编写 试题 ， 不 要 编写 细 目 表 中 未 列 的 试题 。 编 题 时 
还 要 求 命题 者 同时 提供 参考 答案 和 评分 标准 供 审题 参考 。 有 了 
试题 只 是 完成 了 第 一 步 ， 接 下 来 要 进行 试题 筛选 。 试 题 筛选 有 
两 方面 的 工作 要 做 。 一 是 对 试题 的 文字 内 容 进 行 审 查 ， 内 容 是 
否 科学 、 逻 辑 是 否 严谨 、 文 字 表 述 是 否 准确 清楚 等 等 ， 都 是 审 
查 的 内 容 。 其 次 是 进行 试 测 。 通 过 试 测 获 取 试 题 的 难度 、 区 分 
度 指标 。 对 那些 区 分 度 偏 低 或 难度 不 合 要 求 的 试题 进行 修改 ， 
或 干脆 淘汰 。 经 过 第 选 留 下 一 批 高 质量 的 试题 供 组 卷 使用。 组 
卷 时 应 严格 按 测验 计划 进行 ， 内 容 分 类 比 、 目 标 分 类 比 、 题 型 
比 、 难 度 比 都 要 符合 预定 要 求 。 对 于 人 选 试题 还 要 进行 编排 。 
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编排 顺序 通常 是 全 卷 按 题 型 分 类 ， 题 型 顺序 按 先 简 后 繁 排列 ， 
同 题 型 内 按 难 易 顺序 编排 。 试 卷 编排 完毕 还 应 写 好 测验 指导 
语 ， 对 于 新 异 题 型 要 编写 解 题 范例 。 特 别 要 注意 的 是 标准 化 测 
验 应 同时 编制 等 值 复 份 ， 等 值 复 份 的 编制 要 求 与 原本 编制 是 完 
全 一 样 的 ， 最 好 是 在 编 完 以 后 再 随机 确定 哪 是 正本 、 琶 是 复 
份 。 


《四 ) 调查 测验 质量 参数 ， 编 制 测验 常 模 

标准 化 测验 要 得 以 发 行使 用 ， 必 须 提供 测验 质量 参数 ， 包 
括 测 验 的 信 度 、 效 度 等 指标 。 若 是 目标 参照 性 测验 还 必须 提供 
合格 分 数 线 ， 有 的 还 要 提供 误 判 概率 。 常 模 参 照 性 测验 还 必须 
提供 测验 常 模 。 测 验 质量 参数 和 测验 常 模 都 要 通过 取样 测试 。 
选择 测试 样本 (包括 前 面试 题 测试 求 到 试题 参数 的 样本 ) 要 注 
意 保 证 样本 对 总 体 有 充分 代表 性 ， 这 就 需要 样本 有 一 定 的 容 
量 。 如 果 被 试 总 体 层次 结构 复杂 ， 还 必须 采用 分 层 随机 抽样 方 
法 获取 测试 样本 。 样 本 有 充分 的 代表 性 就 能 保证 所 获 参 数 真正 
反映 试卷 的 质量 ,也 使 得 编制 的 常 模 准 确 反 映 被 试 的 总 体 状 
况 。 参 数 计算 方法 和 党 模 编制 方法 前 面 章节 已 有 介绍 ， 此 处 不 
再 装 述 。 如 果 所 编 测验 质量 参数 达 不 到 要 求 ， 说 明 试 着 质量 还 
不 符合 要 求 ， 编 制 人 员 必 须 仔细 分 析 原 因 : 若是 试题 质量 不 
高， 如 区 分 度 不 高 、 难 度 不 合 要 求 、 所 测 教 学 目标 不 准确 等 ， 
则 应 撤换 试题 ; 若是 试卷 结构 不 合理 则 要 修订 测验 计划 。 常 模 
编制 时 ， 关 被 试 层次 结构 太 复杂 ， 层 间 差 异 很 大 ， 可 能 还 要 考 
巧 编制 分 常 模 ， 以 供 不 同 层次 对 象 使 用 。 


{五 ) 编写 测验 指导 书 ， 正 式 出 版 发 行 
测验 质量 达到 规定 要 求 ， 常 模 也 已 编 好 ， 测验 的 编制 进入 
最 后 阶段 ， 那 就 是 编写 测验 指导 书 ， 连 同 编排 好 的 试卷 (包括 
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答卷 纸 ) 一 起 正式 印刷 发 行 。 测 验 指导 书 内 容 包括 测验 目的 、 
适用 对 象 和 范围 、 测 验 操作 要 求 、 测 验 质量 参数 、 标 准 答案 、 
评分 规则 等 项 目 。 测 验 常 模 可 以 附 印 在 指导 书后 ， 也 可 以 单独 
印刷 。 当 然 正式 发 行 还 需 有 负责 机 构 的 批准 。 


三 、 国 外 常用 标准 化 学 绩 测验 简介 


(一 ) 史 坦 福成 就 测验 

史 坦 福成 就 测验 (Stanford Achievement Test) 属于 综合 
性 学 绩 考 查 测验 ， 也 是 一 种 供 团 体 使 用 的 常 模 参 照 性 测验 ， 使 
用 历史 比较 长 ， 初 版 于 1923 年 ， 中 间 经 过 多 次 修订 ， 颇 受 社 
会 好 评 。 该 学 绩 测 验 是 一 种 组 合式 测验 ， 纵 向 可 分 成 6 个 不 同 
的 级 别 水 平 ， 适 用 于 1~9 年 级 学 生 。 具体 级 别 划 分 见 附 表 
11.1。 横 向 包括 11 个 方面 的 科目 内 容 ， 分 别 为 词汇 、 阅 读 理 
解 、 拼 字 、 听 理解 、 词 汇 学 习 技 能 、 语 言 、 数 学 概念 、 数 学 计 
算 、 数 学 应 用 、 社 会 科学 常识 和 自然 科学 常识 ， 基 本 覆盖 了 美 
国 中 小 学 生 所 有 的 学 习 内 容 。 这 些 科 目 内 容 又 分 别 组 合成 不 同 
的 分 测验 供 实际 使 用 。 但 是 在 不 同 级 别 上 ， 科 目 和 分 测验 数 又 
有 不 同 。 初 级 1 有 5 个 分 测验 ,初级 2 也 有 5 个 分 测验 ,但 增 
加 了 部 分 科目 。 其 他 级 别 均 有 7 个 分 测验 ， 其 中 社会 科学 常识 
和 自然 科学 常识 分 测验 在 中 高 年 级 中 是 通用 的 。 
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家 11.1 级 别 划 分 衣 
级 别名 称 





史 坦 福成 就 测验 还 有 两 个 配套 测验 。 一 个 叫 史 坦 福 早期 学 
校 成 就 测验 ， 一 个 叫 史 坦 福 学 业 技 能 测验 。 前 者 适用 于 幼儿 园 
和 一 年 级 学 生 ， 后 者 适用 于 八 到 十 三 年 级 学 生 《 即 初 二 到 大 一 
年 级 )。 当 然 它 们 各 自 包括 的 科目 是 不 同 的 。 史 坦 福 成 就 测验 
还 配 有 练习 测验 。 练 习 测 验 提 前 两 天 提供 给 被 试 练习 ， 协 助 被 
试 熟 悉 测 验 特 点 。 正 式 测验 各 级 别 所 用 时 间 在 3 小 时 35 分 钟 
到 5 小 时 15 分 钟 之 间 不 等 ， 因 而 往往 分 在 几 天 内 完成 。 

该 测验 现行 版 本 提供 两 套 常 模 ， 学 年 初 常 模 和 学 年 末 常 
模 。 常 模样 本 分 别 包括 来 自 300 多 个 学 区 的 25 万 秋季 测试 学 
生 和 20 万 春季 测试 学 生 ， 采 用 分 层 随 机 抽样 方法 获得 。 该 测 


验 使 用 的 导出 分 数 有 5 种 形式 百 分 等 级 、 标 准 九 分 数 、 年 级 


当量 、 量 表 分 数 和 正 态 曲线 当量 。 据 报告 ， 史 坦 福 成 就 测验 各 
分 测验 的 信 度 均 在 0.80 以 上 ,总 测验 的 信 度 高 于 分 测验 信 度 ， 
高 级 别 测验 信 度 高 于 低级 别 测验 信和 度 ， 同 级 别 分 测验 间 的 相关 
均 在 中 等 程度 以 上 。 测 验 的 内 容 效 度 和 结构 效 度 均 获得 符合 事 
求 的 有 力 证 明 。 
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(二 ) 关键 数学 算术 诊断 测验 

关键 数学 算术 诊断 测验 (Key Math Diagnostic Arithmetic 
Test) 初版 于 1971 年 ， 适 用 于 学 前 儿童 直至 小 学 六 年 级 的 学 ， 
生 。 测 验 分 成 内 容 、 运 算 和 应 用 三 大 块 。 内 容 块 有 3 个 分 测 
验 ， 数学 、 分 数 、 几 何 与 符号 ， 主 要 测量 基本 的 数学 概念 和 知 
识 。 运 算 块 有 6 个 分 测验 : 加 法 、 减 法 、 乘 法 、 除 法 、 心 算 和 
数字 推理 。 应 用 块 有 5 个 分 测验 : 文字 题 、 补 充 、 金 钱 、 测 
量 、 时 间 。 这 是 一 个 个 别 测验 ， 全 部 测 完 需 30 到 40 分 钟 的 时 
间 。 关 键 数 学 诊断 测验 在 4 个 层次 上 对 被 试 进行 数学 技能 诊 
断 。 第 一 个 层次 是 总 体 水 平 诊断 ， 指 出 被 试 在 同年 级 伙伴 中 的 
位 置 。 第 二 个 层次 是 分 块 水 平 诊断 ， 比 较 被 试 在 内 容 、 运 算 和 
应 用 三 块 上 的 强 弱 。 第 三 个 层次 是 分 测验 水 平 诊 断 ， 比 较 被 试 
在 14 个 分 测验 上 的 高 低 差 异 。 第 四 个 层次 为 项 目 水 平 诊断 ， 
直接 指出 被 试 在 各 个 项 自 所 代表 的 内 容 和 教学 自 标 上 的 理解 程 
度 。 每 个 层次 的 分 析 都 备 有 侧面 图 ， 诊断 结论 显得 非常 清楚 。 
该 洞 验 还 别 共 匠心 ， 备 有 与 各 题目 相关 联 的 行为 目标 清单 ， 供 
设计 教学 补救 计划 参考 。 据 报告 ， 该 测验 的 常 模样 本 包括 了 
1222 个 幼儿 园 到 七 年 级 的 学 生 ， 来 自 美国 8 个 州 21 个 学 区 。 
该 测验 的 总 分 信和 度 的 中 信 为 0.96。 有 研究 者 还 报告 该 测验 的 
部 分 分 测验 的 并 存 效 度 分 布 在 0.38 到 0.63 之 间 。 

在 我 国 ， 二 三 十 年 代 时 曾 掀起 过 编制 标准 化 学 继 测 验 的 热 
潮 ， 解 放 后 台湾 地 区 的 学 者 在 测验 编制 方面 也 一 直 做 出 努力 。 
大 陆 上 正式 起 步 比较 晚 一 些 ， 用 于 校内 的 学 续 测 验 较 有 影响 的 
还 比较 少见 。 现 在 国内 标准 化 学 绩 测验 研究 的 关注 中 心 是 高 考 
的 标准 化 试验 ， 我 们 将 在 稍 后 专门 介绍 这 方面 情况 。 
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四 、 标 准 化 学 绩 测 验 的 题库 建设 


一 些 大 规模 的 标准 化 学 绩 测 验 应 用 范围 广 ， 施 测 周 期 短 ， 
对 试卷 的 需要 比较 频繁 。 每 次 都 临时 编 题 组 卷 ， 耗 费 大 而 效率 
又 不 高 。 解 决 这 个 问题 的 一 个 有 效 办 法 就 是 建设 一 个 题库 。 应 
用 题库 组 拼 标 准 化 学 绩 测验 的 试 着 ， 具 有 经 济 、 高 效 、 而 且 保 
密 性 强 的 特点 。 苹 外 在 第 二 次 大 版 后 开始 研究 心理 与 教育 测验 
的 题库 建设 ，70 年 代 是 题库 建设 和 计算 机 组 卷 技 术 发 展 最 快 
的 时 期 。 我 国 的 题库 建设 近 十 多 年 来 也 受到 了 各 方面 的 重视 ， 
报刊 上 常见 某 科 某 种 题库 建成 的 报告 。 但 统 观 这 些 题库 ， 质 重 
和 性 能 的 差异 很 大 ， 差 的 充其量 只 能 视 其 为 一 个 “ 题 集 ”而 不 
是 题库 。 所 以 有 必要 加 强 对 题库 建设 的 研究 和 宜 传 ， 鼓 励 多 建 
高 质量 的 题库 。 

通常 认为 ， 一 个 高 质量 的 题库 应 具备 以 下 几 个 方面 的 优良 
性 质 : 

(1) 植 基于 一 种 科学 的 测量 理论 。 

《2) 贮备 有 一 定数 量 的 试题 ， 所 有 试题 品质 优良 ， 技 术 参 
数 完备 。 

(3) 题库 内 部 结构 层次 清楚 、 分 类 严 并 ， 试 题 检 索 方 便 。 

(4) 题库 管理 方便 、 可 控 性 强 、 易 于 维护 更 新 。 

” (5) 保密 性 强 。 

更 理想 的 题库 还 应 实现 计算 机 管理 旦 应 配备 计算 机 自动 组 
卷 程 序 ， 充 分 开发 题库 功能 。 学 绩 测验 比 其 他 任何 心理 与 教育 
测验 的 应 用 都 更 广泛 ， 更 频繁 ， 也 更 需要 保密 。 因 此 建设 一 个 
高 质量 的 题库 是 大 规模 学 绩 测验 维持 测验 高 效 、 质 量 稳定 、 标 
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准 一 致 的 必要 条 件 。 下 面 我 们 就 学 绩 测 验 题库 的 建设 方法 作 一 
些 介绍 。 

首先 是 选 定 一 种 构建 题库 的 测验 指导 理论 。 没 有 科学 的 测 
验 理 论 作为 指导 ， 就 难以 合理 规划 题库 结构 ， 难 以 科学 制定 选 
题 原则 ， 难 以 建成 高 质量 的 题库 ， 也 不 能 按 测验 原理 从 题库 中 
有 目的 地 选择 试题 组 拼 出 质量 符合 要 求 的 标准 化 试卷 。 通 常 可 
选 的 测验 指导 理论 有 经 典 测验 理论 和 项 目 反应 理论 两 种 ， 经 典 
理论 就 是 本 教材 重点 介绍 的 内 容 ， 项 目 反 应 理论 我 们 将 在 最 末 
一 章 向 读者 介绍 。 

其 次 是 设计 题库 结构 。 题 库 结 构 应 根据 选 定 的 测验 理论 模 
型 进行 设计 ， 主 要 应 包括 以 下 册 方 面 的 内 容 : 

(1) 首先 确定 题库 中 试题 所 应 用 参数 的 个 数 ， 各 种 参数 使 
用 名 称 。 通 常 有 试题 内 容 、 教 学 目标 、 题 型 、 难 度 、 区 分 度 等 
可 选 参数 。 实 际 用 多 少 、 用 哪些 应 视 建 库 者 的 目的 、 技 术 和 人 
财物 三 方面 情况 而 定 。 

(2) 确定 全 库 试题 的 内 容 范围 及 内 容 层 次 详 目 。 内 容 层 次 
分 得 越 细 越 好 。 

{3) 确定 全 库 试 题 教学 目 蒜 层次 详 目 。 各 目标 层 应 尽量 用 
操作 性 语言 叙述 。 

(4) 确定 全 库 试 题 的 题 型 种 类 数 及 具体 题 型 。 题 型 种 类 数 
不 宜 太 少 ,一 般 在 10 种 左右 ,不必 刻意 追求 题 型 的 新 颖 性 ， 
但 要 保证 所 使 用 题 型 应 有 较 好 的 性 能 。 

(5) 确定 全 库 试题 难度 等 级 的 划分 。 这 个 划分 可 以 粗放 一 
点 ， 用 难 、 中 、 易 三 等 也 可 。 目 的 是 宏观 控制 一 再 全 库 试题 难 
度 水 平 的 比例 。 

(6) 确定 题库 总 题 量 及 在 各 参数 层次 上 的 分 题 量 。 最 理想 
的 应 该 定 出 每 一 参数 组 合 的 具体 题 量 ， 即 定 出 x x 内 容 、x x 
教学 目标 、x x 题 型 、x 等 难度 的 题 量 为 多 少 ， 以 便 建 库 时 有 


第 十 一 章 ”学 绩 测 验 ，261 ， 


目的 有 计划 地 编 征 试题 。 

建 库 的 第 三 步 工 作 是 编 题 、 征 题 、 试 测 、 分 析 、 第 选 、 编 
码 入 库 等 一 系列 具体 操作 。 前 几 项 具体 操作 与 标准 化 学 绩 测验 
中 所 令 要 求 类 似 ， 只 是 题 量 要 浇 足 计划 的 要 求 。 编 码 人 库 时 除 
将 试题 本 身 的 文字 内 容 送 入 题库 ， 还 应 将 试题 的 各 项 参数 指 
标 ， 包 括 区 分 度 、 难 度 等 数值 ， 以 及 试题 的 标准 答案 、 评 分 标 
准 一 起 存 人 题库 。 

完成 了 以 上 三 步 工作 ， 题 库 就 初步 建成 ， 可 供 使 用 了 。 如 
果 是 计算 机 贮存 管理 的 题库 ， 还 可 以 开发 各 种 组 卷 软 件 ， 自 动 
组 拼 用 于 各 种 目的 的 学 绩 测 验 试卷 。 如 果 不 是 计算 机 化 题库 ， 
则 应 注意 题库 的 保密 问题 ， 应 制定 专门 的 题库 保管 和 启用 规 
则 。 

题库 建成 后 还 应 不 断 地 进行 维修 更 新 ， 不 应 成 为 一 个 固定 
不 变 的 “ 死 ” 库 。 日 常 的 维修 更 新 工作 主要 是 定期 复审 、 复 
测 ， 淘 汰 或 修改 那些 内 容 陈 旧 的 和 性 能 退化 的 试题 。 同 时 补充 
内 容 新 、 性 能 好 的 新 试题 。 用 这 种 “新 陈 代谢 ”的 方法 ， 防 止 
题库 老化 ， 延 长 题库 的 使 用 寿命 。 建 设 一 个 题库 投入 比较 大 ， 
但 题库 建成 后 使 用 的 效率 高 、 效 果 好 ， 因 此 值得 测量 工作 者 
一 试 。 


五 、 我 国 高 考 的 标准 化 试验 


我 国 的 高 考 从 规模 与 影响 来 说 ， 在 国内 都 是 首屈一指 的 。 
每 年 一 度 的 高 考 牵动 着 成 百 上 千 万 学 生 和 家 长 的 心 。 国 家 每 年 
都 要 投 人 大 量 的 人 财物 力主 办 这 人 么 一 次 规模 巨大 ， 政 策 性 、 技 
术 性 都 很 强 的 国家 考试 ， 为 高 校 选 拔 几 十 万 大 学 新 生 。 由 于 国 
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家 重视 ， 也 由 于 考试 工作 人 员 的 努力 工作 ， 高 考 也 是 国内 最 有 
信誉 、 最 有 权威 的 考试 。 但 是 ， 考 试 标准 不 稳定 ， 考 试 结果 误 
差 较 大 ， 选 拨 强 不 “公平 ”等 王 病 却 一 直 存 在 ， 这 在 一 定 程度 
上 影响 了 高 考 的 声誉 。 为 了 维护 高 考 的 权威 ， 提 高 考试 质量 ， 
更 准确 地 选拔 人 才 ， 我 国 开 始 了 高 考 标准 化 的 试验 研究 。 从 根 
本 上 来 说 ， 我 国 高 考 标准 化 试验 的 目的 就 是 要 应 用 现代 心理 与 
教育 测量 学 的 原理 ， 对 传统 高 考 进 行 科学 化 改造 ， 努 力 握 高 考 
试 命题 和 考试 管理 的 水 平 ， 努 力 提 高 考试 的 信 度 和 效 度 ， 逐 步 
达到 标准 化 考试 的 水 准 和 要 求 。 

我 国 高 考 的 标准 化 试验 在 80 年 代 初 就 开始 酝酿 ，1981 年 
到 1985 年 国家 教委 ( 原 教育 部 ) 学 生 司 就 多 次 召开 过 有 关 高 
考 改革 的 研讨 会 。1985 年 开始 ， 受 国家 教委 委托 ,广东 省 开 
始 高 考 的 标准 化 试验 ， 上 海 开 始 了 高 中 毕业 会 考试 验 。 广 东 省 
的 此 项 任务 是 对 考试 的 命题 、 施 测 、 阅 卷 及 分 数 解 释 进行 标准 
化 试验 研究 。 试 验 从 1985 年 的 英语 、 数 学 两 科 ， 逐 步 发 展 到 
1988 年 的 5 科 ; 英语 科 试 验 省 份 率先 增加 ，1988 年 发 展 到 17 
个 省 市 ; 1992 年 开始 ， 全 国 普遍 推行 主 、 客 观 题 分 卷 印刷 ， 
客观 题 实行 机 器 阅卷 两 项 措施 。 上 海 的 试验 以 建立 高 中 毕业 会 
考 制 开 始 ， 最 终 达 到 会 考 、 高 考 配 套 接轨 ， 高 考 科 目 改 组 的 目 
的 。1994 年 会 考 制 在 全 国 普 遍 实行 ， 新 高 考 制 也 逐步 实行 ， 
考试 科目 实行 3+ 2 制 ， 即 公共 必 考 3 科 : 语文 、 数 学 和 外 语 ， 
同时 文科 另 加 政治 和 历史 ,理科 另 加 物理 和 化 学 。 | 

在 阅卷 评分 方面 ， 受 国家 教 捧 委托 ， 江 西 省 于 1989 年 首 
先 在 全 国 统考 着 中 进行 作文 评分 改革 试验 。 随 后 试验 逐步 扩大 
到 河北 、 河 南 等 省 ，1994 年 分 项 分 等 评分 方法 已 在 全 国 大 部 
分 省 份 推广 。 当 前 正在 试验 研究 并 准备 在 全 国 推广 的 是 高 考分 
数 的 标准 化 制度 。 经 过 短 短 10 年 的 试验 研究 ， 我 国 高 考 标准 
化 的 程度 从 各 个 方面 都 有 了 很 大 的 提高 ， 获 得 了 公众 的 好 评 。 
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高 考 标准 化 试验 的 初步 成 功 ， 为 我 国 考试 事业 的 发 展 打 下 了 良 
好 的 基础 。 

必须 要 强调 的 是 ， 我 国 高 考 的 标准 化 并 没有 全 盘 照 报国 外 
的 理论 。 我 国 商 考 的 标准 化 是 在 坚持 和 继承 我 国 传统 考试 的 优 
良 特色 的 基础 上 实现 的 ， 主 要 小 现在 我 们 坚持 主客 观 题 并 用 ， 
坚持 考核 高 层次 教学 目标 ,特别 是 在 主观 题 考试 的 标准 化 研究 
上 作出 了 努力 ， 这 是 国外 标准 化 学 绩 测验 所 不 及 的 。 
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标准 化 学 续 测 验 的 质量 高 、 误 差 小 ， 能 在 大 规模 测验 中 客 
观 淮 确 地 完成 对 被 试 的 测定 和 评价 ， 是 很 理想 的 测验 形式 。 但 
是 标准 化 学 续 测 验 的 编制 技术 要 求 高 、 投 入 大 ， 特 别 是 要 考虑 
到 全 面 ， 所 以 灵活 性 较 差 。 学 校 教育 对 测验 的 要 求 千差万别 ， 
没有 哪 一 种 标准 化 学 绩 测验 能 够 同时 满足 各 种 要 求 。 因 此 ， 学 
校 教学 中 使 用 的 大 多 数 测验 还 得 依靠 教师 自己 设计 、 编 制 、 使 
用 、 评 分 。 一 定 意义 上 说 ,学校 可 以 没有 标准 化 学 续 测 验 而 不 
能 没有 教师 自 编 课堂 测验 。 但 是 我 们 应 该 看 到 ， 目 前 教师 自 纺 
测验 的 质量 是 不 能 令 人 满意 的 。 必 须 鼓 励 教师 学 习 一 点 测量 学 
的 理论 和 技术 ,努力 提高 自 编 测验 的 质量 ,使 店 编 测验 更 好 地 
为 教学 服务 。 
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一 、 教 师 自 编 课堂 测验 的 特点 


(一) 测 输 形式 灵活 多 变 ， 与 测验 目的 完全 一 致 

教师 自 编 课堂 测验 完全 由 教师 根据 测验 目的 自己 确定 测验 
的 时 间 、 地 点 、 内 容 和 形式 。 测 验 时 间 短 的 只 有 有 几 分 钟 ， 十 几 
分 钟 ， 长 的 几 十 分 钟 ， 甚 至 上 百 分 钟 。 测 验 形 式 可 以 笔试 ， 也 
可 以 口试 ， 甚 至 实验 操作 ， 有 的 还 可 以 混合 使 用 。 测 验 内 容 可 
以 是 一 门 课程 、 一 册 教 材 ， 也 可 以 是 一 个 单元 、 一 篇 课文 。 测 
验 可 以 停课 举行 ， 也 可 以 穿插 于 授课 之 间 。 测 验 对 象 可 以 是 一 
个 学 生 ， 也 可 以 是 一 个 小 组 、 一 个 班级 ， 也 有 几 个 班 联 考 的 。 


(二 ) 测验 内 容 与 教材 内 容 高 度 一 致 

教师 自 编 课堂 测验 完全 依据 教师 自己 所 用 教材 编写 ， 不 必 
顾及 其 它 教材 的 内 容 和 形式 。 因 此 ， 教 师 自 编 测验 内 容 与 教材 
内 容 可 以 高 度 一 致 ， 可 以 考 出 所 选 教材 的 特色 ， 特 别 是 对 于 选 
用 地 区 教材 、 乡 土 化 教材 的 学 校 更 为 贴切 实用 。 使 用 教师 自 编 
测验 为 教师 自主 安排 教学 内 容 和 进度 ， 教 出 特色 提供 了 方便 。 


(三 ) 测验 难度 切合 学 生 的 实际 水 平 

标准 化 学 绩 测 验 的 对 象 分 布 范围 广 ， 所 缩 试卷 只 能 以 全 体 
被 试 的 平均 水 平 作为 难度 的 参考 水 平 。 但 是 教学 的 地 区 差异 、 
学 校 差 异 乃 至 班级 差异 都 是 客观 存在 的 ， 用 一 个 平均 难度 的 济 
验 去 面向 全 体 被 试 ， 虽然 保证 了 被 试 大 范围 内 的 可 比 性 ， 但 在 
更 多 的 地 方 却 显得 难度 不 是 很 恰当 。 对 于 水 平 偏 低 的 被 试 ， 测 
验 显 得 难 了 ， 对 于 水 平 偏 高 的 被 试 ， 测 验 又 显得 容易 了 ， 这 都 
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不 利于 调动 学 生 的 学 习 积 极 性 。 而 教师 自 编 课堂 测验 由 教师 自 
已 编写 ， 可 以 针对 自己 学 生 的 实际 水 平 出 题 ， 因 此 就 不 会 出 现 
难度 不 恰当 的 现象 。 学 生 经 过 测验 均 能 从 中 获得 针对 性 很 强 的 
评价 信息 ， 找 到 自己 努力 的 方向 。 


(四) 测验 编制 简易 快速 

教师 自 编 课堂 测验 是 在 教师 对 学 生 、 对 教材 、 对 教学 要 求 
都 非常 熟悉 的 情况 下 进行 的 ， 若 他 又 注意 积累 了 以 往 的 教学 和 
命题 经 验 ， 那 么 编制 一 份 测验 是 比较 容易 的 。 况 且 教师 自 编 课 
堂 测验 不 需要 试 测 ， 不 需要 收集 信和 度 、 效 度数 据 ， 更 不 需要 人 秆 
么 常 模 ， 因 此 编制 花费 的 时 间 了 世 不 党 要 很 多 。 大 多 数 教师 自 编 
测验 编制 简易 快速 ， 可 说 是 学 线 测验 中 的 一 支 轻骑 兵 ， 只 要 孝 
学 需要 ， 它 就 能 快速 地 实现 施 测 ， 这 是 任何 标准 化 学 统 测 验 无 
法 做 到 的 。 


二 、 教 师 自 编 课堂 测验 的 步骤 与 方法 


历来 教师 自 编 课堂 测验 都 是 由 教师 自己 设计 、 自 行 编制 
的 。 但 是 ， 教 师 的 水 平 有 高 低 ， 经 验 有 多 赛 ， 工 作 态 度 有 好 
坏 ， 在 编制 测验 时 自觉 防止 主观 化 、 片 面 化 的 意识 有 强 弱 ， 因 
此 ， 所 编制 测验 的 质量 有 高 低 。 我 们 认为 应 该 鼓励 教师 学 习 一 
点 心理 与 教育 测量 学 知识 ， 应 该 按照 测验 编制 的 科学 原理 去 规 
范 教师 的 测验 编制 行为 ， 去 提 商 教师 的 测验 编制 技术 ， 努 力 提 
高 教师 自 编 测验 的 质量 。 下 面 根 据 这 个 观点 ， 介 绍 教师 自 编 课 . 
堂 测验 应 遵循 的 一 般 步 蔬 与 方法 。 
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(一 ) 审查 测验 目的 

教师 自 编 测 验 往 往 自 认为 对 测验 的 目的 是 很 清楚 的 ， 因 此 
不 会 过 多 地 思考 。 这 对 测验 编制 是 不 利 的 ， 教 师 应 该 认真 审查 ， 
自己 编制 测验 的 目的 。 单 知道 测验 对 象 是 谁 不 够 ， 还 应 深入 了 
解 这 些 对 象 的 学 习 水 平和 特点 ; 单 知道 测验 内 容 是 什么 还 不 
够 ， 应 该 明确 具体 的 教学 要 求 和 教学 目标 是 什么 ; 单 确定 是 学 
绩 测 验 还 不 够 ， 还 应 明确 是 什么 性 质 的 学 绩 测验 ， 是 常 模 参 归 
测验 ， 还 是 目标 参照 测验 ， 是 考查 测验 还 是 诊断 测验 ， 是 速度 
测验 还 是 难度 测验 。 只 有 把 这 些 有 关 测 验 目 的 的 细节 都 考虑 清 
楚 了 ， 才 可 能 编制 出 真正 符合 测验 目的 的 测验 。 关 于 测验 性 质 
的 区 分 是 很 重要 的 ， 学 校 使 用 的 学 科 结业 测验 应 该 是 目标 参照 
性 测验 ， 如 果 编 成 常 模 参 照 测 验 ， 就 没有 客观 稳定 的 合格 标 
准 ， 很 可 能 造成 对 学 生 的 误 判 。 把 不 合格 学 生 误 判 为 合格 的 ， 
是 对 学 生 不 负责 任 ， 把 合格 学 生 误 判 为 不 合格 的 ， 就 会 挫伤 学 
生 的 学 习 积 极 性 ， 这 样 都 会 产生 不 良 后 果 。 所 以 教师 在 动手 编 
制 测验 前 应 认真 审查 自己 的 省 验 目的 ， 理 清 自己 的 思路 和 各 种 
关系 。 


(二 ) 制定 测验 编制 计划 

教师 自 编 课 堂 测验 也 应 该 有 一 个 详细 的 测验 编制 计划 。 编 
制 测验 既 要 在 试卷 结构 上 全 面 合 理 安排 ， 又 要 在 一 个 个 测 题 上 
深入 细致 地 研究 ， 这 就 要 求 思维 既 要 有 广度 ， 又 要 有 深度 。 人 
的 思维 毕 竞 有限， 能 同时 照顾 到 广度 又 照顾 到 深度 的 并 不 多 。 
制定 一 个 详细 的 测验 编制 计划 ， 就 是 促使 教师 首先 在 整体 角度 
认真 考虑 ， 计 划 完 成 后 ， 则 可 以 按 计 划 要 求 ， 在 各 个 测试 点 上 
深入 研究 ， 这 样 既 保证 了 广度 又 达到 了 深度 。 测 验 编制 计划 的 
具体 内 容 可 参考 前 一 节 有 关 部 分 ， 值 得 提醒 的 是 对 于 教学 目标 
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的 分 类 ， 教 师 应 紧密 结合 测验 实际 ,制定 详细 的 分 类 体系 ， 切 
忌 生 据 硬 套 。 


(三 ) 命题 与 组 卷 

命题 与 组 卷 的 首要 问题 是 教师 应 该 严格 按照 测验 计划 进 
行 ， 特 别 是 要 严格 按照 测验 双向 细 目 表 规 定 的 教学 目标 编制 出 
符合 要 求 的 试题 ， 这 对 一 般 教 师 来 说 是 件 比较 困难 的 工作 。 因 
为 教师 对 于 教学 目标 的 理解 往往 不 一 致 ， 即 使 理解 准确 了 ， 要 
- 编 出 恰 能 测定 这 些 目 标的 试题 叉 是 一 个 难题 。 所 以 教师 应 该 结 
合 专业 ， 学 习 一 点 心理 与 教育 学 知识 ， 并 且 注 意 积累 经 验 ， 在 
命题 中 逐步 提高 命题 技术 。 教 师 命 题 还 有 三 条 要 求 ; 一 是 提 
前 ,二 是 超 量 ， 三 是 审查 。 提 前 是 指 早 一 些 把 题 合 好 。 因 为 有 
些 试题 在 编制 时 觉得 是 得 意 之 作 ， 隔 了 一 个 阶段 再 来 看 却 会 发 
现 意义 不 明确 ， 甚 至 模棱两可 。 超 量 是 指 多 命 一 些 题 ， 然 后 从 
中 优 中 选 优 ， 保 证 试 着 质量 。 审 查 的 含意 有 两 重 : 一 是 自己 认 
真 审查 ,包括 自己 解答 一 遍 ; 其 二 是 请 别 的 老师 审查 一 下 ， 做 
一 做 。 有 的 题 自己 形成 思维 定 势 ， 可 别人 一 看 马上 就 发 现 有 歧 
意 或 错误 。 关 于 组 卷 , 除 前 面 所 说 要 严格 按 测验 计划 选用 试题 
外 ， 还 应 考虑 试题 的 编排 顺序 。 这 方面 的 要 求 基本 也 可 参照 本 
章 前 节 的 有 关内 容 。 另 外 ， 教 师 也 应 过 问 试卷 的 编辑 和 印刷 。 
编 印 的 一 般 要 求 是 清 断 、 正 确 、 有 条 理 ， 要 留 足 学 生 作答 空 
区 ， 要 注意 不 要 把 一 道 试题 分 印 在 两 页 上 ， 影 响 学 生 解 题 。 


三 、 教 师 自 编 课堂 测验 应 注意 的 问题 


教师 自 编 课 堂 测验 在 编制 与 应 用 中 还 有 以 下 疙 个 方面 的 问 
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题 需要 注意 : 


(一 ) 教师 要 深入 研究 款 著 ， 深 入 调查 学 生 

由 于 是 自己 教 、 自 己 考 ， 教 师 认为 自己 已 经 很 熟悉 教材 ， 
也 很 熟悉 学 生 ， 所 以 就 不 再 去 认真 研究 教材 、 调 查 学 生 ， 和 赁 自 
己 的 经 验 命题 。 这 样 容易 形成 所 测 内 容 往往 只 涉及 自己 熟悉 的 
或 自己 注重 的 内 容 ， 考 试 对 象 只 以 自己 熟悉 的 或 亲近 的 学 生 为 
代表 ， 这 样 造成 所 命 试卷 内 容 不 全 面 ， 甚 至 缺漏 茶 一 个 或 几 个 
重要 方面 的 结果 ， 或 者 造成 不 能 适合 大 多 数学 生 的 后 果 。 所 以 
命题 时 ， 教 师 还 是 应 该 重新 深入 研究 教材 ， 深 入 调查 自己 的 学 
生 。 深 和 研究 教材 时 还 应 注意 在 命题 时 以 测 教材 的 基本 原理 、 
基础 知识 为 主 ， 内 容 不 宣 太 锁 碎 ， 还 要 员 彻 既 测 知识 、 又 测 能 
力 的 原则 ， 不 能 把 课堂 测验 变 成 纯 知 识 的 测验 。 


《二 》 要 维护 准确 稳定 的 合格 标准 

教师 自 编 测 验 多 数 是 目标 参照 性 测验 ， 目 标 参 照 性 测验 编 
制 的 一 个 重要 原则 是 要 维护 准确 稳定 的 合格 标准 。 所 谓 准 确 ， 
就 是 要 保证 凡 被 评 为 合格 的 学 生 确实 都 是 基本 掌握 了 本 门 学 科 
内 容 ， 达 到 教学 基本 要 求 的 人 ; 凡 评 为 不 合格 的 学 生 确 实 是 未 
达到 学 科 基 本 要 求 的 人 , 不 能 有 过 多 的 误 判 。 所 谓 稳定 ， 就 是 
在 各 次 测验 中 都 维持 同一 个 合格 标准 ， 不 能 忽 高 忽 低 。 要 做 到 
合格 标准 准确 稳定 ， 教 师 首先 要 对 合格 与 不 合格 学 生 的 知识 结 
构 、 能 力 结构 差异 有 非常 清楚 的 了 解 ， 并 且 能 够 把 握 住 他 们 在 
测验 试 着 上 行为 反应 的 差异 特征 ， 能 编制 出 准确 区 分 两 类 学 生 
的 试题 。 其 次 是 测验 编制 时 要 严格 按照 测验 计划 命题 组 卷 ， 靠 
测验 计划 的 稳定 性 来 维护 测验 合格 标准 的 稳定 。 
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(三 》 要 客观 评价 自己 的 命题 技术 ， 合 理 使 用 各 种 题 型 

定向 反应 型 试题 答案 唯一 、 评 分 客观 ， 在 测验 中 多 用 定向 
反应 型 试题 可 有 效 提高 测验 的 信和 度 。 但 是 定向 反应 型 试题 命题 
技术 要 求 比较 高 ， 没 有 一 定 的 食 题 经 验 和 技术 ， 编 写 定向 反应 
型 试题 ， 有 时 反而 会 达 不 到 预期 的 效果 。 所 以 学 科教 师 要 客观 
评价 自己 的 命题 技术 ， 在 经 验 不 足 、 技 术 不 够 的 情况 下 ， 不 必 
然 强 编写 定向 反应 型 试题 。 研 究 发 现 ， 由 于 教师 熟悉 教材 ， 热 
悉 学 生 ， 所 以 只 要 教师 精心 编 题 ， 精 心 评阅， 教师 自 编 测验 中 
用 自由 反应 型 试题 施 测 ， 同 样 会 有 比较 好 的 测验 效果 。 


(四) 要 注意 总 结 命题 经 验 ， 提 高 命题 技术 . 

学 科教 师 不 是 命题 专家 ， 但 是 学 科教 师 却 经 常 自 编 测 验 ， 
经 常 命题 出 卷 ， 而 且 都 会 实际 施 测 ， 这 就 给 教师 提供 了 许多 反 
镇 信息。 教师 应 该 充分 利用 这 些 反 馈 信息 认真 总 结 自 己 的 命题 
经 验 ， 以 便 提高 自己 的 命题 技术 。 不 能 要 求学 科教 师 一 开始 就 
有 很 高 的 命题 技术 ， 但 在 多 次 命题 实践 之 后 ， 通 过 不 断 总 结 成 
功 、 反 思 失 败 ， 教 师 能 逐渐 掌握 命题 的 各 种 技巧 。 总 结 命题 经 
验 还 具体 包括 不 汤 积 寨 优 秀 试 区 ,不 断 充实 个 人 的 “题库 ”。 
一 次 未 命 好 的 试题 还 可 以 经 过 艇 改 后 再 用 ， 不 断 积聚 的 结果 使 
得 教师 拥有 一 个 优质 “题库 ”， 使 得 在 以 后 的 命题 组 卷 中 ， 有 
了 一 批 基本 试题 ， 可 和 做 到 胸有成竹 ， 不 至 于 出 大 的 质量 问题 。 


《五 ) 要 尽量 控制 评分 误差 ,防止 简单 粗粮 

教师 自 编 测 验 应 该 防止 评分 简单 粗粮， 草率 从 事 。 要 防止 
简单 地 以 对 错 判 分 ， 特 别 是 对 于 自由 反应 型 试题 评分 应 该 详细 
分 析 学 生 的 作答 过 程 ， 评 价 他 的 思维 方式 和 思维 水 平 。 要 根据 
学 生 实 际 掌 握 的 知识 状况 和 思 纵 能 力 综合 评分 。 目 前 的 测验 评 
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分 中 有 两 种 不 可 到 的 方法 : 一 种 是 教师 所 命 试 题 为 高 层次 教学 
目标 的 测试 题 ， 而 学 生 仅 根据 教材 、 笔 记 或 一 些 辅导 材料 中 组 
织 好 的 答案 作 一 番 死记 硬 背 ， 考 试 时 复述 一 遍 ， 实 际 上 并 无 形 
成 自己 的 思维 ， 而 教师 也 评 给 一 个 高 分 ， 无 形 中 降低 了 考试 的 
目标 层次 ; 另 一 种 情况 是 ， 教 师 出 了 一 道 问答 题 ， 而 学 生 不 加 
思维 ， 不 加 组 织 ， 把 各 种 换 得 鞭 边 和 挨 不 着 边 的 内 容 一 一 罗 
列 ， 教 师 评分 时 也 不 去 评价 学 生 的 思维 ， 不 认定 他 实际 上 是 知 
识 不 扎实 ， 反 而 到 学 生 漫 无 目标 的 作答 中 选择 “正确 点 ”， 按 
点 记分 ,结果 还 能 得 高 分 ， 莽 至 得 满分 。 这 都 是 评分 简单 粗粮 
的 表现 。 

因此 ， 教 师 自 编 测验 控制 评分 误差 还 要 注意 两 点 : 一 是 要 
在 测验 前 作 好 参考 答案 和 评分 标准 ,阅卷 时 要 严格 按 标准 评 
阅 。 二 是 要 注意 防止 产生 评分 误差 的 名 片 效应 、 光 环 效应 、 对 
比 效应 、 失 后 效应 等 各 种 心理 效应 的 影响 ， 还 要 防 弟 被 学 生 的 
文字 组 织 和 卷 夯 书 写 风 格 干扰 而 远离 评分 标准 的 现象 。 








《六 ) 要 做 一 些 定量 分 析 研 究 

教师 自 编 测验 不 要 求 在 施 测 前 拿 出 信和 度 、 效 度 指标 ， 但 在 
施 测 之 后 教师 对 试卷 做 一 些 定量 分 析 研 究 是 很 有 益处 的 。 定 量 
分 析 内 容 主 要 是 计算 试题 的 难度 、 区 分 度 、 选 择 题 各 选择 支 的 
选 答 率 ， 以 及 整 份 试卷 的 信 庶 ， 有 效 标的 话 还 可 以 计算 效 度 。 
根据 计算 数据 分 析 评价 各 试题 质量 ， 评 价 试卷 的 整体 质量 。 这 


， 是 总 结 命题 经 验 ， 提 高 命题 技术 的 更 易 见 效 的 措施 。 具 体 计算 


分 析 方 法 本 书 有 关 章 节 已 有 介绍 ， 在 此 不 再 重复 。 
练习 与 思考 


1. 结合 实际 的 测验 例子 试 述 学 续 测 验 的 性 质 和 作用 。. 
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2." 就 《心理 与 教育 测量 》 前 10 章 内 容 ， 设 计 一 份 测验 
编制 计划 。 | 

3. 标准 化 学 绩 测 验 的 标准 化 要 求 有 哪些 ? 如 何 才能 做 到 ? 

4. 举例 说 明 诊断 测验 如 何 实现 它 的 诊断 功能 ? 

5. 题库 的 基本 要 求 是 哪些 ? 您 认为 建设 题库 有 什么 好 处 ? 

6. 就 您 的 经 验 谈 谈 教 师 自 编 测 验 存在 万 些 不 是 ? 改进 的 


途径 是 什么 ? 
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第 十 二 章 ”能 力 测验 (上 ) 


本 章 提 和 要: 

便 传 统 智力 测验 所 依据 的 名 种 智力 理论 
重 传 统 智力 测验 的 评价 

得 传统 智力 测验 典型 量 表 的 性 能 及 使 用 : 
比 内 量 表 、 韦 氏 量 表 、 瑞 文 推理 测验 等 
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第 一 节 ”智力 测验 的 一 般 问 题 
一 、 关 于 智力 实质 的 理论 研究 


智力 的 实质 究竟 是 什么 ?这 是 多 世纪 以 来 智力 研究 者 们 关 
注 的 焦点 。 智 力 测验 虽 已 有 近 百 年 的 历史 ， 但 对 这 一 问题 至 今 
仍 是 百家争鸣 ， 没 有 定论 。 

19 世纪 末 ， 汉 特 、 高 尔 顿 、 卡 特 尔 和 比 内 《有 undt. 允 、 


”下 .Galton、R.B.Cattell、A.Binet) 等 许多 心理 学 家 试图 用 实 


验 或 测验 手段 评估 个 体 智 力 。 但 是 ， 他 们 当时 评估 智力 时 对 智 
力 所 下 的 操作 定义 往往 与 其 对 智力 的 理性 理解 不 相符 合 ， 因 
而 ， 他 们 的 各 种 移 力 评估 手段 的 结构 效 度 很 低 。 这 种 局 面 迫 切 
要 求 对 智力 的 实质 作出 明确 界定 ， 从 而 能 够 有 效 地 评估 智力 的 
个 体 差 异 。 于 是 ， 心 理学 家 们 开始 致力 于 关于 智力 实质 的 研 
究 。 这 样 的 研究 几乎 贯穿 整个 20 世纪 ， 各 种 智力 理论 及 其 评 
佑 手段 层出不穷 。 其 中 ， 基 于 心理 测量 学 、 认 知 科 学 和 生物 学 
的 三 类 研究 是 最 富 影 响 力 和 竞争 力 的 。 


《一 ) 智力 的 心理 测量 学 理论 

1. 智力 二 因素 论 

英国 心理 学 家 斯 皮尔 晶 【C.Spearman，1904) 首先 发 现 
一 系列 心理 能 力 测 验 之 间 存 在 普遍 的 正 相关 ， 并 首先 利用 因素 
分 析 方 法 ， 将 这 些 相关 归 因 于 一 种 一 般 因 素 或 共同 因素 的 作 
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用 。 他 命名 这 种 因素 为 G 因素 ， 并 从 3 个 方面 对 它 定义 : 经 
验 的 领会 、 关 系 推断 和 相关 推理 。 他 认为 G 因素 对 于 同一 个 
体 是 稳定 的 ， 它 渗透 于 所 有 与 智力 行为 有 关 的 任务 之 中 ， 是 一 
切 心智 活动 的 主体 ， 个 体 间 智力 的 差异 就 决定 于 个 体 拥 有 的 G 
因素 量 的 多 赛 。 

后 来 ， 由 于 测验 间 并 非 完全 相关 ， 因 而 ， 出 于 统计 上 相关 
分 析 的 需要 ， 斯 皮尔 部 又 提出 还 存在 特殊 因素 (S 因素 )， 并 
由 此 构成 他 的 智力 二 因素 论 。 但 他 始终 强调 G 因素 是 智力 的 
核心 ,而 S$ 因素 只 有 在 某 些 特殊 情况 下 (特殊 工作 或 特殊 活 
动 ) 才 会 表现 出 来 ， 因 而 只 具有 偶然 的 意义 。 

2. 智力 多 因素 论 

由 于 统计 学 中 因素 分 析 法 的 发 展 ， 美 国 心 理学 家 瑟 斯 顿 
(LL. Thurstone，1938) 利用 多 重 因素 分 析 方 法 首先 提出 : 智力 
的 核心 不 是 单一 的 G 因素 ， 而 是 许多 主要 的 、 基 本 的 、 彼 此 
相关 的 能 力 因素 群 。 经 过 多 年 研究 ， 他 和 他 的 学 生 从 56 种 不 
亲 的 涡 验 中 ， 分 析出 语文 理解 、 言 语 流畅 性 、 推 理 、 空 间 表 
象 、 数 字 、 记 忆 和 知觉 速度 等 7 种 最 主要 、 最 基本 的 心理 能 力 。 

一 战 以 后 ， 吉 尔 福特 〈T.Guilford) 以 20 年 时 间 孕 育 出 一 
个 新 的 智力 结构 模型 ,通常 被 视 为 瑟 斯 顿 理论 的 扩展 ( 见 图 
12.1)。 在 此 ， 智 力 包括 3 个 维度 . 

《1) 内 容 因素 ， 指 引起 心智 活动 的 各 类 和 刺激， 包括 人 视觉 
(F) 一 一 形状 大 小 、 颜 色 等 ; 四 上 昕 觉 (A) 一 一 声音 信号; @ 
符号 (S$) 一 一 字母 、 数 字 等 ; 图 语义 (M) 一 一 词句 的 意义 、 
概念 等 ; @ 行 为 (B) 一 一 各 种 行为 模式 。 

{2) 操作 因素 ， 指 由 各 种 刺激 引起 的 反应 方式 与 心理 过 
程 ， 包括 人 @ 认 知 (C); 加 记忆 (M); 图 发 散 思 维 (D); 图 聚 
合 思 维 (N); @@ 评 价 (E)。 
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冰 对 卉 宰 





图 12.1 智力 三 维 结构 模型 


{3) 结果 因素 ， 指 心智 活动 的 产物 ， 亦 即 对 各 类 刺激 的 反 
应 结果 ， 包 括 @ 单 位 (U) 可 以 按 单位 计算 的 产物 ， 如 一 
个 词 、 一 句 话 等 ; 名 类 别 (C) 一 一 将 事物 分 类 ; 回 关系 
(R) 推断 两 个 事物 间 关 系 ; 四 系统 (S) 一 一 推断 一 个 系 
统 内 请 事物 的 关系 ; 图 转化 〈T) 一 一 对 事物 认识 的 迁移 ; 名 
涵义 (I) 一 一 解释 内 涵 。 吉 尔 福特 认为 这 三 个 维度 的 变化 组 
合 可 以 产生 150 种 心理 能 力 。 

事实 上 ， 智 力 多 因素 论 者 虽然 强调 智力 由 多 种 能 力 因 素 构 
成 ， 但 他 们 后 来 也 不 否认 G 因素 存在 的 可 能 性 , .只 是 否认 其 
重要 性 娶 了 。 

3. 智力 层次 理论 

美国 心理 学 家 弗 农 (P.A.Vernon，1971) 提出 了 智力 三 
层次 模型 ， 认 为 G 因素 处 于 智力 结构 最 高 层 ， 贯 穿 于 其 他 所 
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有 智力 因素 之 中 ; 第 二 层 是 高 语 能 力 和 操作 能 力 两 个 因素 ， 分 
别 控制 着 第 三 层 的 主要 心理 能 力 ， 如 数学 、 语 文 、 空 间 知觉 等 
( 见 图 12.2)。 


G 因素 


TD 
Re 操作 因素 


数学 语文 …… 空间 知觉 ,机 械 能 力 …… 
图 12.2 智力 三 胃 次 模型 


(二 ) 智力 的 生物 学 理论 

随 着 神经 生理 学 和 生理 心理 学 的 发 展 和 成 熟 ， 智 力 的 生物 
学 研究 在 智力 领域 始终 占据 一 席 之 地 。 高 尔 顿 、 桑 代 克 
(E.L.Thondike)、 艾 森 克 (H.Eysenck) 和 佣 森 (A.R.Jenson) 
等 人 皆 从 生物 学 观点 出 发 ， 认 为 : 智力 在 人 类 脑 的 结构 、 生 物 
化 学 、 生 理学 、 遗 传 学 等 先天 因素 的 影响 下 形成 和 发 展 ， 它 使 
人 类 区 分 于 其 他 生物 ， 同时 也 使 人 类 个 体 差异 得 到 反映 。 仿 森 
的 智力 振 萝 理论 在 其 中 最 具 代 表 性 ( 见 图 12.3)。 





图 12.3 智力 振 还 理论 的 等 级 双向 树 图 


图 中 标点 表示 大 脑 皮层 的 激活 点 ， 其 数目 与 智力 任务 中 的 


第 十 二 章 ”能 力 测验 (上) .277 ， 


物理 刺激 数目 相对 应 。 图 中 所 标 数字 表示 神经 传导 链 的 水 平 数 。 

振荡 理论 假设 :每 个 结 点 的 激活 水 平 是 振荡 的 ， 因 此 这 些 
结 点 有 一 半 时 间 处 于 不 应 期 。 对 结 点 的 刺激 车 超过 了 其 激活 阅 
限 ， 则 将 沿 荐 结 点 链 传 递 下 去 直至 最 后 的 反应 通道 。 因 而 ， 对 
刺激 作出 反应 的 时 间 量 ， 实 质 上 依赖 于 两 个 因素 ，@D 激 活 传导 
所 必需 经 过 的 链 的 水 平 数 ; 加 结 点 的 平均 振荡 周期 。 个 体 在 这 
两 个 因素 上 的 差异 ， 导 致 了 个 体 的 反应 时 差异 ， 并 最 终 反 映 了 
个 体 在 智力 上 的 差异 。 

可 见 ， 詹 森 强调 速度 因素 在 智力 上 的 重要 人 性。 事实 上 ， 他 
也 承认 心理 测量 学 中 智力 G 因素 的 存在 ， 所 不 同 的 是 他 将 G 
因素 定义 成 了 反应 速度 。  . 

(三 》 智 力 的 认 知 心理 学 理论 

60 年 代 ， 认 知 科 学 兴起 。 此 后 ， 由 于 它 的 影响 力 和 渗透 
力 ， 越 来 越 多 的 心理 学 家 开始 在 信息 加 工 的 理论 框架 下 ， 试 图 
探讨 人 类 智力 的 内 部 信息 加 工 机 制 与 过 程 。 在 这 一 领域 中 具有 
代表 性 的 研究 成 果 ， 当 属 美国 心理 学 家 斯 坦 伯 格 (RJ. Stern- 
berg，1985) 提出 的 智力 认 知 成 分 理论 。 

斯 坦 伯 格 认为 智力 结构 由 “成 分 ”组 成 。 所 谓 成 分 ， 就 是 
对 物体 或 符 导 的 内 部 表征 进行 操作 的 基本 信息 加 工 过 程 。 据 成 
分 的 概括 水 平 或 功能 可 对 其 进行 不 同 分 类 : 

1. 据 成 分 概括 水 平分 类 

可 分 为 一 般 成 分 、 类 成 分 和 特殊 成 分 。 一 般 成 分 指 所 有 知 
力 任务 操作 所 必需 的 成 分 ， 类 成 分 指 至 少 两 种 任务 必需 的 解决 
某 类 任务 的 成 分 ， 特 殊 成 分 只 是 单一 任务 操作 所 需 的 成 分 。 斯 
坦 伯 格 以 一 个 等 级 结构 来 说 明 这 三 种 成 分 之 间 的 关系 ， 但 并 未 
对 每 类 成 分 的 具体 内 容 作 进一步 的 诠释 。 
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2. 据 成 分 功能 分 类 

可 分 为 操作 成 分 、 元 成 分 和 知识 获得 成 分 。 操 作成 分 是 智 
力 任务 完成 过 程 中 实际 旅行 的 加 工 过 程 ， 其 中 最 普 志 存在 的 信 
息 加 工 成 分 有 : 编码 、 关 系 推断 、 相 关 推 理 、 应 用 、 比 较 、 证 
实 、 反 应 。 元 成 分 是 指 问 题解 决 过 程 中 使 用 计划 、 监 挖 和 决策 
的 高 级 执行 过 程 ， 其 功能 包括 : 审阅 问题 ;选择 信息 加 工 成 
分 ; 选择 信息 的 一 种 或 多 种 表征 ; 选择 信息 加 工 成 分 的 组 合 策 
略 ; 决定 注意 资源 的 分 配 ; 问题 解决 过 程 的 监控 及 结果 的 检验 
和 评价 。 知 识 获得 成 分 是 指 用 于 获得 新 知识 的 过 程 ， 包 括 学 习 
成 分 、 保 持 成 分 和 迁移 成 分 。 三 种 主要 功能 成 分 相互 作用 ， 彼 
此 激活 或 给 予 反 馈 〈 直 接 或 间接 ) ， 处 于 一 种 动态 结构 之 中 。 


二 、 关 于 智力 评估 的 实践 探索 


受 达 尔 文 进化 论 思 想 的 影响 ， 英 国 心 理学 家 高 尔 顿 将 智力 
归 诸 于 遗传 的 素质 ， 成 为 智力 的 个 别 差 异 研究 和 科学 测量 智力 
的 主要 创始 人 。1884 年 ， 高 尔 顿 开始 运用 实验 手段 测量 智力 ， 
结果 以 反应 时 表示 ， 并 且 首 先 发 现 反应 时 与 教师 评定 的 智力 等 
级 间 的 正 相 关 。 在 智力 的 早期 研究 中 ， 卡 特 尔 、 桑 代 克 等 人 篆 
沿袭 了 高 尔 顿 的 实验 室 方式 ， 认 为 反应 时 与 其 他 简单 的 感知 觉 
辨别 测验 相 结 合 可 以 评估 智力 的 个 体 差异 。 

1904 年 ， 斯 皮尔 曼 提 出 了 智力 G 因素 的 存在 。 这 一 理论 
观点 不 仅 对 以 后 关于 智力 实质 的 理论 研究 产生 了 巨大 的 影响 ， 
而 县 也 成 为 智力 测验 产生 的 理论 基础 。1905 年 ， 法 国 心理 学 
家 比 内 和 医生 西 效 (T.Simon) 在 智力 G 因素 论 的 影响 下 , 合 
作 制 成 世界 上 第 一 个 智力 量 表 ， 以 测验 的 总 分 或 平均 分 作为 个 
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体 智 力 G 因素 水 平 的 评估 指标 ， 并 以 此 标定 智力 的 个 体 差 异 。 
从 此 ， 比 内 一 西蒙 智力 量 表 便 作 为 智力 测验 的 传统 模式 而 存 
在 。 在 随后 的 50 ~ 60 年 时 间 里 ， 行 为 主义 学 派 在 心理 学 中 占 
据 着 主导 地 位 ， 心 理学 家 们 的 研究 兴趣 更 多 集中 于 行为 的 结果 
而 非 其 内 部 过 程 。 因 而 ， 这 段 时 期 内 的 智力 评估 ， 几 乎 尼 以 智 
力 的 心理 测量 学 理论 为 基础 ， 并 遵循 着 比 内 一 西蒙 晤 表 的 传统 
一 一 只 是 测验 内 容 的 细节 不 同 ， 并 且 评 估 指 标 几 经 改进 之 后 ， 
离 差 智商 成 为 最 广泛 使 用 的 指标 。 

智力 测验 一 产生 ， 便 被 迅速 地 应 用 于 人 类 社会 的 各 个 方 
面 ， 并 有 旦 ， 作 为 一 种 度量 工具 ， 它 们 在 对 个 体 的 分 类 和 预测 上 
显示 了 非凡 的 使 用 价值 。 然 而 ， 智 力 测验 同时 也 和 遭 到 来 自 各 方 
面 的 批判 。 其 中 ， 最 激烈 的 批判 之 一 是 认为 智力 测验 过 分 注重 
于 个 体 的 知识 结构 ， 而 知识 是 教育 的 结果 ， 教 育 又 极 具 特 定 社 
会 和 文化 背景 的 影响 ， 因 此 ， 测 验 的 应 用 受到 看 曲 或 限制 。 批 
判 者 们 提倡 文化 公平 测验 ， 这 种 思想 集中 体现 在 智力 的 生物 学 
研究 之 中 。 

关于 智力 的 稳定 的 遗传 力 的 研究 、 智 力 与 大 量 生物 学 指标 
之 间 的 相关 研究 ， 以 及 智力 与 反应 时 之 间 的 相关 研究 为 钥 森 的 
理论 假设 提供 了 实验 证 据 ， 并 表明 了 速度 对 于 智力 G 因素 的 
重要 性 。 办 此， 篇 森 认为 可 以 设想 从 更 为 简单 的 信息 加 工 现象 
入 手 ， 以 一 系列 不 受 社会 和 文化 背景 影响 的 纯粹 的 反应 时 测验 
来 取代 传统 的 智力 测验 ， 并 以 个 体 在 测验 中 的 反应 时 指标 来 标 
定 其 智力 G 因素 水 平 。 | 

由 于 传统 的 智力 测验 和 夭 森 所 倡议 的 反应 时 测验 均 注 重 于 
个 体 在 测验 中 的 行为 结果 ， 并 以 一 个 总 的 指标 来 评估 智力 的 个 
体 差 异 ， 而 未 在 更 为 精细 、 严 窗 的 水 平 上 对 个 体 心理 活动 过 程 
的 内 部 加 工 机 制 进行 分 析 ， 因 此 ，60 年 代 以 后 的 认 知 心理 学 
家 们 对 此 提出 异议 ， 并 开始 寻找 新 的 智力 评估 方法 。 
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在 认 知 心理 学 中 的 减法 反应 时 法 的 启发 下 ， 斯 坦 伯 格 提出 
了 智力 的 认 知 成 份 分 析 法 。 这 种 方法 从 复杂 认 知 作业 的 操作 入 
手 ， 并 在 理论 上 假设 任何 一 个 复杂 的 问题 解决 都 由 一 系列 基本 
的 认 知 操作 成 分 (如 编码 、 推 断 、 应 用 等 ) 构成 ， 然 后 通过 精 
心 设计 的 反应 时 实验 ， 分 解 出 不 同 智力 水 平 的 个 体 解决 局 一 复 
杂 问 题 所 采用 的 各 种 认 知 加 工 成 分 ， 并 记录 每 一 个 体 在 每 一 加 
工 成 分 上 的 反应 时 参数 ， 最 后 比较 个 体 和 总 体 的 各 成 分 参数 ， 
就 可 以 评估 个 体 在 每 一 加 工 成 分 上 的 水 平 高 低 ， 从 而 能 够 相当 
精确 地 诊断 出 个 体 认 知 过 程 中 真正 的 、 内 在 的 薄弱 点 ， 并 因此 
而 能 对 症 下 药 ， 及 时 有 效 地 给 以 补救 和 引导 。 

然而 ， 以 反应 时 表示 的 信息 加 工 速度 虽然 可 以 有 效 地 反映 
个 体操 作成 分 上 的 差异 ， 但 束 手 的 是 : 人 们 可 以 主动 地 有 意识 
地 控制 加 工 速度 ， 进 行 合理 的 资源 分 配 ， 平 衡 速 度 和 准确 性 的 
矛盾 。 这 正 是 斯 坦 伯 格 所 说 的 智力 元 成 分 的 功能 。 显 然 ， 信 息 
加 工 速度 并 非 元 成 分 的 主要 特征 ， 因 而 以 反应 时 作为 元 成 分 的 
评估 指标 是 无 效 的 或 至 少 是 不 足够 的 。 那 么 应 该 如 何 评估 元 成 
分 ? 这 个 问题 目前 仍 在 研究 和 探索 之 中 。 

事实 上 ， 以 篇 森 为 代表 的 生物 学 智力 论 者 和 以 斯 坦 伯 格 为 
代表 的 认 知 心理 学 智力 论 者 虽然 从 不 同 的 角度 指出 了 传统 智力 
测验 的 不 足 ， 并 在 各 自 的 理论 基础 上 对 智力 评估 提出 了 新 思 
路 、 新 方法 ， 但 是 这 些 新 思路 和 新 方法 往往 还 只 停留 在 设想 或 
实验 研究 的 水 平 之 上 ， 而 未 能 制订 出 现成 的 、 切 实 可 信 的 智力 
测量 工具 ， 因 而 便 无 法 被 应 用 于 实际 之 中 以 满足 社会 的 需要 。 
到 目前 为 止 ， 在 社会 各 界 用 以 评估 智力 个 体 差 异 的 测量 工具 
中 ,影响 最 大 、 普 及 面 最 广 、 权 威 性 最 强 的 仍 是 传统 的 智力 
测验 。 


第 十 二 章 ”能 力 测验 (上) *。 281 - 


三 、 传 统 智 力 测验 的 若干 问题 


(一 ) 传统 智力 测验 的 结构 效 度 

由 于 传统 的 智力 测验 是 在 智力 G 因素 论 的 基础 上 编制 ， 
因此 ， 车 测验 具有 较 好 的 结构 效 度 ， 那 么 我 们 便 认为 它 基 本 济 
出 了 个 体 在 智力 G 因素 上 的 水 平 高 低 。 然 而 ， 如 果 我 们 作 进 
一 步 的 讨论 :“ 智 力 G 因素 真正 存在 吗 ?”“ 智 力 G 因素 的 实质 
究竟 是 和 什么?”“ 和 智力 G 因素 上 的 个 体 差异 意味 着 智力 全 部 的 
个 体 差异 吗 ?” 那 么 便 会 遗憾 地 发 现 对 于 这 些 问 题 的 讨论 始 于 
很 多 年 以 前 而 至 今 仍 无 定论 。 若 想 解决 这 些 问题 ， 唯 一 有 效 的 
途径 就 是 统一 对 于 智力 实质 的 看 法 。 这 就 意味 着 我 们 前 面 所 述 
的 各 种 不 同 的 智力 研究 方向 将 向 一 个 共同 点 汇合 。 

分 析 智 力 理论 的 研究 趋势 ， 各 种 智力 理论 研究 方向 之 间 的 
结合 是 可 能 的 并 且 势 在 必 行 。 早 在 1957 年 ， 美国 心理 学 家 克 
伦巴 苏 〈Cronbach) 就 提出 : 科学 心理 学 应 当 将 相关 研究 和 实 
验 研究 有 机 地 协调 起 来 。 以 心理 测量 学 为 代表 的 相关 研究 能 够 
揭示 智力 任务 上 各 种 不 同 智力 因素 间 的 关系 ,但 它 却 不 能 解释 
各 种 智力 因素 及 其 相互 关系 的 内 在 加 工 实质 。 以 认 知 心理 学 为 
代表 的 实验 研究 能 够 以 相对 确定 的 方式 揭示 认 知 活动 的 内 在 机 
制 ， 但 单 从 实验 本 身 却 难以 说 明 加 工 系统 的 各 种 成 分 对 于 完成 
智力 任务 是 否 是 一 般 有 效 的 。 因 而 ， 完整、 充分 地 认识 人 的 智 
力 需 要 两 种 研究 相 结合 。 而 智力 的 生物 学 研究 ， 从 辩证 法 的 角 
度 来 看 ， 它 所 强调 的 智力 的 遗传 素质 应 该 作为 智力 研究 的 生理 
基础 而 存在 。 

智力 研究 者 们 期 刻 通 过 共同 的 努力 而 最 终 达 到 对 于 智力 实 
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和 质 的 共识 。 那 么 ， 关 于 智力 实质 的 一 个 综合 的 统一 的 理论 究竟 
能 不 能 产生 ? 车 能 ， 则 什么 时 候 可 以 产生 ? 这 些 目前 来 说 均 是 
未 知 数 。 因 而 ， 关 于 智力 测验 的 结构 效 度 ， 目 前 我 们 只 能 做 狂 
义 的 解释 ， 即 以 不 同 智力 理论 模 狸 为 基础 的 智力 测验 ， 其 结构 
效 度 应 具备 不 同 的 含义 ， 并 且 我 们 最 终 对 测验 结果 的 解释 亦 相 
应 不 同 。 因 此 ， 在 选择 和 使 用 智力 测验 时 ， 这 是 一 个 必须 慎重 
考虑 的 问题 。 


(二 ) 传统 智力 测验 的 功能 

测验 的 基本 功能 是 测量 个 体 差异 ， 因 而 传统 智力 测验 的 功 
能 便 是 对 智力 的 个 体 差 异 的 测量 。 大 量 的 测量 结果 表明 :在 一 
般 人 和 群 中 智力 高 者 或 低 者 均 占 少数 ， 智 力 中 等 或 接近 中 等 者 约 
占 全 部 人 口 的 80% ， 基 本 于 星 常态 分 布 。 

由 于 管 力 测验 所 依据 的 理论 上 的 特性 ， 以 及 智力 分 布 的 常 
态 性 ， 管 力 测验 在 实际 中 常常 行使 将 人 群 分 类 的 功能 。 韦 克 斯 
勒 (D. Wechsler) 曾 按 智商 的 高 低 ， 把 智力 分 成 7 类， 如 表 12.1。 


类 12.1 韦 克 斯 勒 对 智力 的 分 类 


1Q 类 别 

130 以 上 极 优秀 (天 才 ) 
120 ~ 129 优秀 

110- 119 中 上 ( 联 颖 ) 
90 - 109 中 材 

80—89 中 下 (迟钝) 
70- 79 低能 边缘 

70 以 下 智力 缺陷 


此 外 ， 由 于 传统 智力 测验 结果 与 学 习 成 绩 、 教 师 评 定 等 外 
在 效 标 间 的 高 的 正 相 关 的 存在 ,智力 测验 在 实际 中 又 常 被 作为 
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预测 源 测 验 行 使 预测 的 功能 。 

社会 对 智力 测验 的 需求 不 仅仅 是 将 人 群 分 类 并 预测 个 体 未 
来 可 能 的 成 功 程度 ， 还 要 求 测验 能 进一步 对 个 体 进行 诊断 和 采 
取 相 应 且 及 时 的 补 琢 措 施 。 而 智力 的 心理 测 重 学 概念 强调 G 
因素 的 存在 ， 只 从 宏观 上 描述 个 体 的 外 在 行为 结果 ， 却 忽视 了 
对 个 体 心理 活动 过 程 进行 精细 的 分 析 及 对 内 部 加 工 机 制 的 探 
讨 ， 因 此 ， 以 此 为 依据 的 传统 智力 测验 可 以 对 人 群 进行 分 类 和 
预测 ， 却 无 法 对 个 体 真正 的 内 在 的 薄弱 点 作出 精确 诊断 ， 从 而 
不 能 满足 社会 更 为 精细 的 需求 。 


(三 》 传 统 智力 测验 的 公平 性 

利用 测验 评估 智力 差异 时 ， 首 要 前 提 是 必须 客观 公正 。 伟 
统 智力 测验 对 任何 人 都 是 公正 的 么 ? 这 是 一 个 长 期 以 来 频 有 争 
议 的 问题 。 对 此 持 否定 态度 者 主要 从 以 下 几 个 方面 提出 质疑 ， 

1. 性 别 差异 

对 于 智力 的 性 别 差异 的 研究 ， 已 有 多 年 的 历史 。 研 究 者 们 
通常 会 发 现 男女 两 性 在 智力 上 的 差别 在 统计 上 并 不 显著 ， 因 
此 ， 就 整体 而 言 ， 智 力 很 可 能 并 不 存在 性 别 差异 。 然 而 ， 具 体 
到 对 智力 的 不 同 能 力 因素 上 的 研究 ， 则 结果 一 般 表 明 存 在 性 别 
差异 : 男性 在 数学 推理 、 视 觉 一 一 空间 能 力 、 躯 体 运 动 速度 和 
协调 方面 优 于 女性 ; 而 女性 在 言语 流畅 性 、 盲 语 理 解 和 记忆 等 
方面 则 优 于 男性 。 这 样 一 来 ， 智 力 测验 本 身 的 内 容 和 结构 ， 对 
男女 两 性 便 未 必 公平 了 。 一 般 测 验 都 包括 多 种 性 质 的 题目 ， 有 
些 可 能 更 适 于 男性 ， 有 些 则 更 适 于 女性 。 如 果 测 验 中 所 包含 的 
利于 男性 和 利于 女性 的 题目 并 不 均衡 ， 那 么 此 测验 对 其 中 某 一 
性 别 的 人 群 便 是 不 公正 的 ， 此 时 便 应 对 测验 结果 所 显示 的 性 别 
差异 作出 慎重 解释 。 传 统 智 力 测验 中 的 《 韦 氏 成 人 量 表 》 的 题 
昌 就 存在 这 畔 的 不 平衡 问题 。 
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2. 职业 差异 

关于 智力 的 职业 差异 的 一 类 研究 表明 ;不 同 职 业 的 人 在 乱 
商 上 具有 差异 ， 从 事 专业 工作 的 人 员 (如 会 计 师 、 律 师 、 工 程 
师 ) 的 智商 最 高 ， 而 诸如 工人 、 农 民 这 样 的 劳动 者 相对 则 智商 
最 低 。 有 些 资 产 阶 级 学 者 据 此 得 出 “劳动 人 民 天 生 帅 策 ” 的 结 
论 ， 为 其 阶级 剥削 提供 依据 。 显 然 ， 这 是 一 种 阶级 偏见 。 在 当 
代 社 会 ， 职 业 分 工 日 益 精 细 ， 不 同 的 职业 需要 不 同 的 能 力 是 一 
个 公认 的 事实 。 而 传统 智力 测验 并 不 能 全 面 反 映 人 的 各 方面 能 
力 ， 因此 仅 以 智商 高 低 来 判断 人 的 智 古 并 不 充分 ， 由 此 得 出 
“天 生 如 何 ” 的 结论 更 是 荡 寥 智力 受到 遗传 与 环境 的 双重 影 
响 ， 劳 动人 民 及 其 子女 之 智商 若 相对 偏 低 ， 则 很 可 能 是 由 环境 
影响 所 致 ， 而 不 能 断言 其 天 生 如 此 。 

3. 文化 和 教育 差异 

传统 智力 测验 经 常 受 到 的 批评 是 ; 个 体 在 测验 上 的 得 分 往 
往 受 知识 经 验 的 影响 ， 因 此 测验 对 不 同文 化 背景 或 教育 水 平 的 
团体 是 不 公平 的 。 大 量 测 验 结果 显示 了 显著 的 城乡 智力 差异 和 
种 族 智力 差异 ,后 者 曾 为 种 族 歧 视 者 所 利用 ， 成 为 其 种 族 歧 视 
的 借口 。 

然而 ,智力 测验 结果 反映 的 城乡 差异 和 种 族 差 异 ， 并 不 能 
完全 归 因 于 城乡 或 种 族 本 身 由 遗传 引起 的 差异 。 事 实 上 ,文化 
和 教育 因素 在 此 很 可 能 起 了 主导 作用 : 一 方面 是 由 于 构成 智力 
测验 的 题目 本 身 在 很 大 程度 上 是 对 个 体 受 文化 影响 和 受 教育 程 
度 的 测定 ; 另 一 方面 是 由 于 城乡 之 间或 不 同 种 族 之 间 的 生存 环 
境 在 文化 和 教育 方面 有 极 大 的 差异 ， 城 市 儿童 或 白人 儿童 一 般 
生活 在 浓厚 的 文化 氛围 之 中 ,并且 其 家 庭 的 社会 经 济 地 位 普遍 
足以 为 其 提供 较 好 的 教育 ， 农 村 儿童 或 黑人 儿童 则 不 然 。 此 
外 ， 另 一 些 研 究 事实 亦 为 此 提供 了 依据 : 一 是 现代 传播 媒介 以 
及 各 种 信息 交流 手段 的 日 益 丰 富 ， 使 得 美国 农村 儿童 对 文化 的 
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接触 日益 广泛 ,智力 的 城乡 差异 在 明显 缩小 ; 二 是 一 些 研 究 者 
通过 人 为 改变 某 些 黑 人 儿童 的 生活 环境 ,给予 他 们 较 好 的 教育 
和 一 定 的 文化 各 殊 ， 一 段 时间 以 后 发 现 他 们 的 智力 水 平 明 显 上 升 。 

为 了 保证 智力 测验 对 不 同文 化 背景 团体 的 公正 性 ， 很 多 人 
试图 编制 排除 文化 影响 的 “ 超 文化 ” 湾 验 或 所 包含 的 文化 因素 
适宜 于 不 同 团体 的 “文化 公平 ”测验 。 现 在 关于 这 方面 的 研究 
取得 了 一 定 效果 ， 但 目前 为 止 ， 还 没有 出 现 一 个 成 功 测验 可 以 
用 来 取代 现 有 的 传统 的 智力 测验 。 


《四 ) 传统 智力 测验 的 预测 效 度 

在 用 智力 测验 对 个 体 未 来 可 能 成 功 程度 作 预 测 时 ， 一 般 都 
假定 所 测 的 智力 是 个 体 相当 稳定 的 特质 。 而 事实 上 ， 人 的 智力 
并 非 一 成 不 变 ， 它 会 由 于 某 些 因素 的 影响 而 发 生变 化 。 智 力 的 
可 变性 主要 表现 于 以 下 几 个 方面 ， 

1. 智力 随 年 岭 成 熟 而 发 展 

一 般 研 究 表明 : 人 类 智力 随 年 龄 而 增长 。 绘 制 智 力 与 年 龄 
关系 的 曲线 。 可 以 看 到 ， 智力 在 童年 期 急速 增长 ， 在 青少年 期 
增长 稍 缓 ， 在 成 年 期 达 最 大 值 ， 保 持 稳定 一 段 时 期 后 开始 有 所 
下 降 。( 见 图 12.4》 


0 5 10 15 20 25 30 35 40 45 50 55 60 65 
图 12.4 智力 成 长 曲线 {根据 韦 克 斯 勒 1958 年 的 研究 ) 
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虽然 对 于 智力 成 长 曲线 的 研究 结果 尚 不 尽 一 致 ， 但 大 概 可 
以 归纳 如 下 ， 

(1) 智力 发 展 在 十 二 三 岁 以 前 星 直 线 上 升 趋势 ， 十 三 岁 后 
开始 减 慢 。 

(2) 个 体 智力 水 平 与 其 智力 发 展 速率 及 停止 年 龄 密切 相 
关 ; 一 般 智力 高 者 发 展 速 度 快 而 停止 年 龄 晚 ， 智力 低 者 则 发 展 
速度 慢 且 停止 年 龄 早 。 

(3》 智 力 发 展 高 峰 期 虽 存 在 个 体 差 异 ， 但 总 的 来 说 ， 早 期 
研究 认为 一 般 人 的 智力 在 16 ~ 18 岁 时 到 达 顶 峰 ， 近 期 研究 结 
果 又 将 之 推迟 至 25 岁 。 

2. 智力 随 环境 而 变化 

在 遗传 宗 质 确定 的 情况 下 ， 环 境 的 变动 将 对 个 体 智力 产生 
一 定 影响 。 比 方 说 ， 突 然 从 经 济 条 件 良好 且 教 育 环境 良好 的 状 
态 下 ， 转 到 贫穷 和 无 法 接受 良好 教育 的 境况 ， 或 从 文化 和 物质 
均 较 贫 痛 的 农村 某 地 迁 人 文化 氛围 浓 、 教 育 水 平 高 的 城市 中 生 
活 ， 都 会 对 个 体 智 力 产生 消极 或 积极 的 影响 。 

3. 智力 随 个 性 特质 的 不 同 而 产生 不 同 变化 

个 体 人 格 特征 也 是 影响 智力 发 展 的 一 个 因素 。 例 如 ， 茜 
(Haan，1963) 的 研究 结果 表明 : 智商 的 改变 与 个 人 的 心理 防 
卫 机 制 有 密切 关系 ， 凡 是 运用 退缩 、 否 认 、 合 理化 的 人 ， 其 智 
商 有 降低 的 趋势 ; 反之 ， 运 用 客观 、 建 设 性 、 面 对 现实 的 人 ， 
其 智商 有 上 升 的 趋势 。 

由 于 上 述 智力 的 可 变性 ， 利 用 智力 测验 来 预测 个 体 今后 的 
可 能 成 功 程度 的 效能 便 有 被 夺 大 的 可 能 。 一 个 在 当前 测验 上 
IQ 较 低 的 个 体 ， 并 不 一 定 今后 就 笨 而 且 没 有 成 就 。 比 如 ,一 
般 来 说 女性 无 论 在 生理 上 还 是 智力 上 发 育 均 较 男性 为 早 ， 那 
” 么 ,女性 早期 在 智力 测验 上 表现 出 的 优越 性 、 并 不 能 说 明 女 性 
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今后 一 定 比 男性 成 功 。 因 此 ， 以 智力 测验 预测 个 体 未 来 成 就 
时 ,一 定 要 局 重 考 虚 其 预测 效 度 问题 。 

虽然 传统 智力 测验 在 理论 基础 和 实际 运用 中 存在 这 样 或 那 
样 的 问题 ， 以 致 招 到 来 自 各 方 的 批判 ， 甚 至 一 度 受到 社会 的 抵 
制 ， 但 是 ， 到 目前 为 止 ， 智 力 测验 仍 被 作为 有 效 的 智力 个 体 差 
异 评估 工具 而 得 到 广泛 应 用 。 究 其 原 思 ， 大 约 可 以 归于 以 下 见 
个 方面 : 

首先 ， 智 力 本 身 虽 具有 可 变性 ， 但 从 另 一 个 角度 来 说 ， 它 
也 具有 稳定 性 。 其 稳定 性 主要 表现 在 : 个 体 智 力 在 其 相应 团体 
中 的 相对 位 置 长 时 期 内 保持 稳定 。 这 种 相对 地 位 的 稳定 可 以 首 
先 归 因 于 个 体 的 遗传 素质 。 研 究 表明 ， 血 缘 关 系 越 近 的 人 吞 商 
相关 越 高 ， 可 见 遗 传 对 于 智力 的 发 展 具 有 不 可 忽视 的 作用 。 虽 
然 环境 的 变化 对 智力 发 展会 产生 很 大 的 影响 ,但 就 普遍 范围 而 
言 ， 多 数 人 的 环境 是 相对 稳定 的 ， 罕 如 其 来 的 环境 巨变 相对 少 
见 。 而 且 ， 后 天 经 验 是 一 个 积累 的 过 程 ， 先 前 经 验 为 以 后 的 发 
展 提供 了 基础 ， 因 而 最 初 发 展 较 快 、 智 力 水 平 较 高 的 个 体 很 有 
可 能 在 其 团体 中 继续 保持 领先 地 位 。 

可 见 ， 企 体 智 力 的 相对 稳定 性 为 智力 测验 具有 一 定 预 测 效 
度 提供 了 可 能 性 。 并 且 ， 由 于 个 体 智力 的 发 展 到 一 定年 龄 以 后 
会 越 来 越 慢 ， 最 终 会 达到 顶 蜂 并 在 此 后 长 时 期 内 处 于 稳定 状 
态 ， 所 以 智力 测验 的 预测 效 度 便 会 出 现 随 受 测 者 年 龄 递增 的 
新 势 。 

其 次 ,智力 测验 实际 运用 于 选拔 和 安置 人 员 时 ， 往 往 被 实 
践 证 明 其 对 学 生 和 职业 等 效 标的 预测 具有 较 好 的 效 度 ， 因 而 可 
以 有 效 地 帮助 决策 者 提高 决策 正确 率 。 

再 次 ， 由 于 智力 测验 对 不 同 团体 可 能 存在 的 不 公平 性 ， 人 
们 已 经 试图 从 改善 智力 测验 本 身 来 缓解 这 一 问题 ， 比 如 改善 题 
目 结 构 ， 或 据 亚 文化 群 的 特点 为 不 同 团 体 编制 不 同 的 测验 ， 或 
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在 同一 测验 中 为 不 同 团体 制定 子 常 模 等 。 但 是 ， 事 实 上 ， 从 另 
一 角度 来 说 ， 当 智力 测验 被 用 于 选拔 人 员 财 ， 我 们 更 应 看 重 的 
是 其 预测 效 度 而 非 其 公平 性 。 只 要 一 个 测验 确实 能 够 在 一 定 的 
录取 率 下 相当 准确 地 筛选 出 最 有 可 能 成 功 的 人 ， 那 么 该 测验 就 
应 是 可 行 的 。 至 于 它 对 各 种 不 同 固体 公平 与 否 的 问题 ， 最 根本 
的 解决 办 法 还 是 建立 一 个 政治 、 文 化 、 经 济 等 各 方面 高 度 平等 
的 社会 ， 从 本 质 上 消除 文化 、 经 济 、 教 育 方面 对 某 些 特殊 团体 
的 不 公平 。 

最 后 ， 虽 然 人 们 指出 传统 智力 测验 的 种 种 不 是 和 局 限 ， 并 
且 从 各 种 角度 提出 了 更 全 面 更 完善 的 智力 评估 手段 的 设想 ， 也 
有 很 多 人 在 实践 中 作 了 诸多 尝试 ， 但 至 今 仍 未 出 现成 熟 的 、 超 
越 于 传统 智力 测验 之 上 的 智力 评 佑 工具。 因此， 传统 吞 力 测验 
在 智力 评估 中 的 地 位 目前 仍 是 不 可 取代 的 。 


第 二 节 ”个体 智 力 测验 


传统 智力 测验 由 于 施 测 对 象 的 不 同 可 以 分 为 个 体 智 力 测验 
和 团体 智力 测验 ， 前 者 一 般 由 一 位 主 试 对 一 位 被 试 进行 面对面 
的 施 测 ， 后 者 则 可 由 一 位 主 试 同时 对 若干 被 试 进行 施 测 。 本 节 
将 对 代表 性 最 强 、 影 响 最 大 的 个 体 智力 测验 作 一 简要 介绍 。 
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一 、 比 内 量 表 


(一 ) 比 内 一 西 攻 置 表 

1.1905 年 量 表 

这 是 比 内 和 西蒙 出 于 诊断 异常 儿童 智力 的 需要 ， 于 1905 
年 编制 而 成 的 世界 上 第 一 个 智力 量 表 。 它 包括 30 道 测验 项 目 ， 
种 类 繁多 ， 可 以 测量 智力 的 多 方面 表现 ， 比 如 记忆 、 言 语 、 理 
解 、 手 工 操作 等 。 它 以 通过 多 少 项 目 作 为 区 分 智力 的 标准 ， 并 
且 显 现 出 年 龄 量 表 的 锥 型 ， 比 内 和 西蒙 在 此 已 指明 不 同年 龄 的 
儿童 所 能 通过 的 项 目 。 

2.1908% 年 量 表 

这 是 第 一 个 年 零 重 表 。 比 内 和 西蒙 在 此 对 1905 年 最 表 作 
了 如 下 修订 : 测验 项 目 增 至 59 个 ; 四 测验 项 目 以 年 龄 分 组 
(3~ 13 岁 ， 每 步 一 组 ); 名 以 智力 年 龄 来 评估 个 体 智力 ， 即 儿 
童 最 后 能 通过 哪个 年 龄 组 的 项 目 ， 便 说 明 他 具有 这 一 年 龄 的 智 
力 水 平 ， 而 不 论 他 的 实际 年 龄 是 多 少 。 

3.1911 年 量 表 

比 内 在 1908 年 量 玫 基础 之 上 对 其 做 最 后 一 次 修订 ， 除 了 
改变 一 些 项 目 内 容 及 其 顺序 之 外 ， 还 将 其 适用 范围 扩大 ， 增 设 
了 一 个 成 人 题目 组 。 

虽然 如 今 比 西 量 表 由 于 其 简陋 和 非 标准 化 而 不 再 为 当代 人 
所 使 用 ， 但 它 在 智力 测验 历史 上 的 贡献 是 不 可 磨灭 的 ， 它 的 主 
导 思 想 成 为 其 后 智力 测验 所 遵循 的 传统 。 
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(二 ) 斯 坦 初 一 比 内 量 表 

1. 斯 坦 福 一 比 内 量 表 的 发 展 

比 西 量 表 发 表 以 后 ， 戈 达 德 〈H.Goddard，1908) 第 一 个 
将 其 介绍 到 美国 。 此 后 ， 又 有 -- 些 人 对 它 进 行 了 修订 ， 其 中 美 
国 斯 坦 福 大 学 的 推 了 惫 (L. Terman) 教授 的 工作 最 负 盛 名 。 

(1) 1916 年 量 表 。 

推 孟 1916 年 发 表 的 斯 坦 福 一 比 内 量 表 《简称 斯 一 比 量 表 ) 
中 ， 对 于 比 西 量 表 中 的 项 目 或 者 保留 ， 或 者 修改 ， 或 者 删除 ， 
并 在 此 基础 上 又 增设 了 39 个 新 项 目 。 该 量 表 普 次 引入 比率 智 
商 的 概念 ， 开 始 以 IQ 作为 个 体 智力 水 平 的 指标 。 而 且 ， 为 了 
使 测验 标准 化 ， 该 量 表 对 每 个 项 目 施 测 规定 了 详细 的 指导 语 和 
记分 标准 。 

(2) 1937 年 量 表 。 

推 孟 1937 年 对 斯 一 比 量 表 作 了 第 一 次 修订 ， 修 订 后 的 斯 
一 比 量 表 由 工 型 和 M 型 两 个 等 入 量 表 构 成 。 该 量 表 适 用 年 龄 
由 1916 年 的 3~ 13 岁 扩展 到 1.5~ 18 岁 ， 并 在 修订 时 选取 了 
更 大 的 代表 性 样本 以 获得 其 信 度 、 效 度 资 料 ， 不 过 其 样本 仍 局 
限于 白人 ， 且 偏重 于 社会 经 济 地 位 较 高 家 庭 的 儿童 ， 因 而 仍 未 
能 全 面 反 映 美国 当时 人 口 状况 。 

(3) 1960 年 量 表 。 

这 个 量 表 汇 集 了 1937 年 量 表 的 工 型 和 M 型 中 最 佳 项 目 而 
成 LM 型 单一 童 表 ， 适 用 于 2 岁 到 成 人 。 该 量 表 的 重大 改变 在 
于 舍弃 了 比率 智商 ， 引 入 了 离 差 智 商 概念 ， 以 平均 数 为 100， 
标准 差 为 16 的 离 差 智商 作为 智力 评估 指标 。 

(4) 1972 年 量 表 。 

此 量 表 保持 1960 年 量 表 的 测验 内 容 不 变 ， 重 新 修订 常 模 ， 
所 选 常 模 团体 包括 了 美国 各 地 区 、 各 社会 阶层 .各 种 经 济 状 
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况 、 各 民族 的 2100 名 儿童 ， 取 样 代表 性 有 了 很 大 提高 。 

2. 斯 比 量 表 的 信和 度 与 效 度 

《1)》 信 度 。 

一 般 说 来 ， 斯 比 量 表 对 年 龄 大 的 被 试 比 年 龄 小 的 被 试 信 度 
高 ， 对 于 智商 低 的 被 试 比 智商 高 的 被 试 信 度 高 。 计 算 其 工 型 
和 M 型 量 表 的 复 本 信和 度 ， 在 2.5~5.5 岁 为 0.83 ~0.91, 在 6 
~13 岁 为 0.91 ~0.97, 在 14~18 岁 为 0.95 ~0.98 (下 限 信 
度 值 来 自 于 IQ 为 140 ~ 149 的 被 试 ， 上 限 信和 度 值 来 自 于 1Q 为 
60 ~ 69 的 被 试 )。 再 测 信 度 与 复 本 信 度 的 研究 结果 大 体 一 致 

因此 ， 总 的 看 来 ， 斯 比 量 表 是 一 个 高 信和 度 的 测验 ， 各 种 年 
秀和 IQ 水 平 的 信和 度 系数 大 都 在 0.90 以 上 ， 意 味 着 在 被 试 实 
得 分 数 变异 中 90% 以 上 来 自 于 真 分 数 变异 ， 而 由 随机 误差 引 
起 的 分 数 变异 不 足 10% 。 

《2) 效 度 。 

斯 比 量 表 的 效 度 具 有 多 方面 证 据 ，; 

内 容 效 度 : 斯 比 量 表 中 所 包含 的 项 目 涉及 到 多 方面 的 内 
容 ， 如 言语 、 类 比 推理 、 理 解 、 记 忆 、 空 间 关系 、 数 字 等 ， 而 
这 些 内容 又 被 公认 在 智力 范 时 之 内 。 

效 标 关联 效 度 : 由 斯 比 量 表 而 得 的 智商 分 数 与 学 业 成 绩 、 
教师 评定 、 受 教育 年 限 等 外 在 效 标 分 数 间 存在 普遍 正 相关 ， 效 
标 关联 效 度 系数 大 多 介 于 0.4 ~ 0.75 之 间 。 由 于 斯 比 量 表 以 文 
字 材 料 为 主 ， 因 此 它 对 言语 方面 的 预测 有 效 人 性 较 之 其 他 方面 更 
高 一 些 。 

结构 效 度 :斯 比 量 表 的 理论 构想 主要 基于 以 下 两 方面 
智力 随 年 龄 而 发 展 ， 其 成 长 曲线 特征 为 先 快 后 慢 ; 加 智力 结构 
中 存在 一 般 因 素 G， 它 渗透 于 每 一 智力 行为 之 中 ， 是 智力 的 核 
心 。 斯 比 量 表 对 于 其 理论 构想 的 测量 有 效 性 已 得 到 -一定 程度 的 
证 明 ; 一 方面 ， 斯 比 量 表 的 信 度 研究 显示 出 其 再 测 稳定 性 程度 
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随 年 龄 而 提高 的 趋势 ， 从 而 表明 智力 随 年 龄 而 先 快 后 慢 发 展 的 
特点 ; 另 一 方面 ， 在 1960 年 量 表 中 ， 虽然 每 一 项 目 涉及 不 同 
智力 行为 ， 但 项 目 分 析 结 果 显 示 各 项 目 与 测验 总 分 的 平均 相关 
系数 为 0.66， 这 表明 各 项 目 所 测 的 特质 同 质 性 很 高 ， 因 而 正 
是 支持 了 其 理论 假设 中 贯穿 于 所 有 智力 行为 之 中 的 智力 G 因 
素 的 存在 。 


《三 ) 中 国 比 内 测验 

从 本 世纪 20 年 代 起 ， 我 国 心 理学 家 陆 志 伟 和 吴 天 人 敏 便 开 
始 斯 坦 福 一 比 内 量 表 的 中 国 版 修订 工作 。1924 年 ， 酝 志 伟 在 
1916 年 斯 比 量 表 的 基础 上 修订 而 成 《中 国 比 内 西蒙 智力 测 
验 )。1936 年 他 和 吴 天 敏 合 作 发 表 第 二 次 修订 本 。1978 年 ， 吴 
天 敏 主持 第 三 次 修订 ，1982 年 完成 《中 国 比 内 测验 》。 

该 测验 共有 51 道 题 ， 从 易 到 难 排列 ， 每 题 代 表 4 个 月 的 
心理 年 龄 ， 这 样 从 2 ~ 18 岁 ， 每 个 年 龄 段 有 3 道 题 。 不 过 最 后 
的 智力 评定 指标 并 非 智 丙 ， 而 是 离 差 智 商 。 

施 测 时 ， 先 根据 被 试 年 龄 从 测验 手册 的 附 表 一 中 查 到 开始 
作答 的 题 号 ， 如 2 ~ 5 岁 儿 童 从 第 一 题 开始 作答 ，6 ~7 岁 儿 童 
从 第 7 题 开始 作答 ，8 岁 儿 童 从 第 10 题 开始 作答， 等 等 。 然 
后 根据 指导 语 进行 逐 题 测试 ， 采 用 全 或 无 的 记分 方法 ， 即 通过 
为 1 分, 不 通过 为 0 分， 连续 5 题 得 0 分 便 停止 测验 。 最 后 根 
据 测 验 总 分 和 被 试 实 足 年 龄 ， 可 从 指导 手册 的 常 模 表 中 查 得 被 
试 的 智商 ， 如 某 4 岁 零 3 个 月 的 儿童 得 分 为 9， 则 可 知 其 智商 
为 108。 

中 国 比 内 测验 必须 个 别 施 测 ， 并 且 要 求 主 试 必 须 受过 专门 
训练 ， 对 量 表 相 当 熟 悉 且 有 一 定 经 验 ， 能 够 严格 按照 测验 手册 
中 的 指导 语 进行 施 测 。 

为 了 节省 测验 时 间 ， 吴 天 敏 在 《中 国 比 内 测验 》 的 基础 上 
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又 制定 了 一 份 《中 国 比 内 测验 简 编 》， 由 8 个 项 目 组 成 ， 通 党 
只 需 20 分 钟 即 可 测 完 。 


二 、 韦 克 斯 勒 量 表 


(一 》 韦 氏 成 人 智力 年 表 

1. 韦 氏 成 人 智力 量 表 英文 版 

(1) 韦 氏 成 人 智力 量 表 的 产生 与 发 展 。 

乔 韦 克 斯 勤 一 一 贝尔 韦 量 表 

美国 心理 学 家 韦 克 斯 勤 在 临床 心理 工作 中 发 觉 斯 比 量 表 在 
成 人 智力 水 平 评估 上 的 不 足 ， 他 认为 斯 比 量 表 的 内 容 和 题目 是 
针对 儿童 设置 的 ， 过 份 强调 速度 而 又 缺乏 难度 ， 对 成 人 而 言 表 
面 效 度 很 低 ， 无 法 引起 成 人 的 兴趣 ， 而 且 斯 比 量 表 的 常 模 资料 
亦 来 自 几 童 ， 智 龄 的 概念 也 不 适用 于 成 人 。 因 此 ， 他 于 1934 
年 开始 致力 于 智力 测验 的 编制 和 研究 工作 ，1939 年 发 表 了 书 
克 斯 勒 一 一 贝尔 韦 智力 量 表 I 型 (Wechsler 一 Bellevue Scale 
Form 1, W-BI )。 

丈 - BI 是 第 一 个 成 人 智力 测验 , 它 的 内 容 是 以 特别 适合 
成 年 人 使 用 的 眼光 来 选择 的 ， 并 用 一 系列 不 同 的 子 测验 的 形式 
来 编制 整个 油 验 ， 每 个 子 测验 内 的 题目 此 由 易 到 难 顺序 排列 。 

由 于 WW- BI 在 常 模样 本 的 代表 性 及 子 测验 信和 度 上 的 不 
足 ， 韦 克 斯 勒 又 于 1949 年 增加 了 [型 (W-BI)。w-BI 
和 多 -~ BH 主要 用 于 测量 10 ~ 60 岁 的 被 坛 ， 它 们 在 内 容 和 形 
式 上 为 后 来 发 展 的 各 种 量 表 芮 定 了 基础 。 

生 韦 氏 成 人 物 力量 表 和 修订 版 

韦 克 斯 勒 对 多-B 做 了 和 修订 和 重新 标准 化 ， 于 1955 年 纺 
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制 出 版 夺 氏 成 人 智力 量 表 (WAIS)，1981 年 又 出 版 了 再 次 修 
订 和 标准 化 后 的 WAIS,， 称 为 韦 氏 成 人 智力 量 表 修订 版 
(WAIS— R)。 

玉 AIS-R 和 区 -B 及 贸 AIS 一 样 由 11 个 分 测验 组 成 ， 其 
中 常识 、 背 数 、 词 汇 、 算 术 、 理 解 、 类 同等 6 个 分 测验 又 构成 
言语 分 量 表 ， 填 图 、 图 画 排 列 、 积 木 图 案 、 拼 图 、 数 字符 号 等 
5 个 分 测验 构成 操作 分 量 表 。 在 此 ， 每 个 分 测验 内 的 题目 由 吻 
至 难 排列 。 并 且 ， 言 语 测验 和 操作 测验 交替 施 测 。 

WAIS - R 的 每 个 分 测验 独立 记分 ， 再 转化 为 平均 数 为 
10， 标准 差 为 3 的 标准 分 数 。 六 个 言语 分 测验 的 标准 分 数 相 加 
可 得 言语 量 表 分 ， 五 个 操作 分 测验 的 标准 分 数 相 加 可 得 操作 量 
表 分 ， 所 有 分 测验 的 标准 分 数 相 加 可 得 全 量 表 总 分 。 最 后 ,将 
这 些 量 表 分 数 转换 成 平均 数 为 100， 标 准 差 为 15 的 高 差 智商 
分 数 ， 便 可 得 到 言语 智商 、 操 作 智商 和 总 智商 。 

久 AIS 一 RR 的 常 模 团体 由 1880 人 组 成 ， 男女 各 半 ， 分配 在 
16~17, 18 ~ 19, 20 ~ 24, 25~ 34, 35~44, 45~ 54, 55~ 
64，65 ~69，70~74 岁 9 个 年 龄 组 韦 克 斯 勒 非常 注重 取样 
代表 人 性 ， 尽 量 使 之 与 美国 1970 年 人 人 口 统计 资料 中 的 各 种 比例 
相符 。 他 根据 常 模 团 体 的 测验 结果 ， 为 每 个 年 龄 组 分 别 制 定常 
模 。 因 此 ， 根据 被 试 的 原始 分 数 查 得 的 言语 、 操 作 和 总 的 智商 
分 数 ， 表 明了 被 试 在 他 所 属 的 年 龄 组 团体 中 所 占 的 相对 位 置 。 

{2) 韦 氏 成 人 智力 量 表 的 信和 度 和 效 度 。 

全 信和 度 

色 AlS -RR 的 手册 中 报告 了 11 个 分 测验 以 及 言语 分 量 表 、 
操作 分 量 表 和 全 量 表 在 各 个 年 龄 组 上 的 信和 度 资料 。 其 中 背 数 和 
数字 符号 两 个 分 测验 计算 的 是 复 本 信和 度 ， 其余 均 计 算 分 半 信 
度 。 结 果 表 明 : 全 其 表 的 信和 度 在 各 年 龄 组 上 的 分 布 为 0.96 ~ 
0.98， 言语 量 表 的 信 庆 分 布 为 0.95 ~ 0.97. 操作 量 表 的 信 庶 
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分 布 为 0.88 ~0.94。 分 测验 的 信和 度 相对 低 一 些 ， 但 11 个 分 测 
验 在 各 年 龄 组 上 的 89 个 信 度 系数 中 也 只 有 5 个 低 于 0.70， 最 
高 也 达到 0.96。 

生效 度 

WAIS-R 没有 收集 效 度 资料 , 但 韦 克 斯 勒 等 人 曾 对 
WAJS 的 效 度 作 了 大 量 研 究 。 

结构 效 度 : 韦 克 斯 勒 曾 明确 指出 :“ 允 AIS 中 的 11 个 分 测 
验 是 从 各 个 方面 来 测量 智力 ， 而 不 是 测量 不 同类 型 的 智力 。” 
他 认为 ,，“ 智 力 是 个 人 有 目的 地 行动 ， 理 吞 地 思考 以 及 有 效 地 
应 付 环境 的 整体 的 或 综合 的 能 力 。” 对 多 AIS 的 因素 分 析 结 果 
表明 : 在 测验 分 数 的 总 变异 中 ， 有 50% 的 变异 来 自 智力 一 般 
因素 。 在 WAIS ~- R 中 ， 各 分 测验 之 间 和 分 量 表 之 间 存 在 的 普 
亡 的 、 显 著 的 正 相 关 ， 也 表明 智力 G 因素 渗透 于 智力 行为 的 
各 个 方面 。 

内 容 效 度 : 韦 克 斯 勒 在 量 表 中 设计 的 11 个 分 测验 ， 均 取 
自 于 前 人 ， 它 们 在 早期 智力 量 表 中 和 皆 被 成 功 地 使 用 过 ， 并 在 临 
床 实践 中 显示 了 它们 的 价值 ， 被 公认 为 智力 行为 的 主要 范 畸 。 

效 标 关联 效 度 ， 在 异 质 性 较 高 的 团体 中 ，WAIS 与 斯 比 量 
表 的 相关 在 0.80 左右 。 多 AIS 与 各 种 教育 与 职业 效 标 间 也 有 
相关 ， 如 文职 人员 的 言语 智商 平均 高 于 其 操作 智商 ,技术 工人 
则 正 相 反 。 

2. 韦 氏 上 成 人 智力 量 表 中 国 修订 本 

1982 年 ， 在 湖南 医学 院 袭 话 先 主持 之 下 修订 出 版 了 WAIS 
的 中 国 修 订 本 (简称 WAIS -RC)。 

(1)〉WAIS -RC 的 修订 工作 。 

WAIS- RC 在 项 目 内 容 上 变化 不 大 ， 只 是 删除 了 部 分 完 
全 不 适合 我 国文 化 背景 的 题目 ， 并 根据 我 国 常 模 团 体 的 测验 结 
果 对 测验 项 目 硕 序 作 了 适当 调整 。 其 主要 内 容 如 下 ， 


”296 ， 心理 与 教育 测量 


言语 量 表 

常识 测验 : 共 29 题 ， 内容 取 样 范围 极 广 ， 尽 量 避 免 涉 及 
专业 领域 的 内 容 。 例 如 : “ 钙 表 有 什么 用 ?”“ 我 国 首都 在 娜 
儿 ?” 等 ,结果 以 “1”“0” 计 分 ， 用 于 测量 被 试 的 一 般 智力 因 
素 和 记忆 能 力 。 

理解 测验 ， 共 14 题 ， 要 求 被 试 说 明 在 某 种 特定 情形 下 应 
做 什么 ， 或 解释 一 些 话 的 意思 。 如 : “为 什么 不 要 同 坏 人 交 朋 
友 ?” 等 ， 以 “0”“1”“2” 方 式 计 分 ， 用 于 测量 被 试 运用 实际 
知识 解决 问题 的 能 力 和 社会 适应 能 力 。 

算术 测验 ; 共 14 题 ， 内 容 属 小 学 算术 范围 如 “8 个 人 
在 6 天 内 可 以 完成 的 工作 ， 车 半天 内 必须 完成 ， 应 找 多 少 人 来 
化 ?” 题目 限时 完成 ， 以 “1”“0” 计 分 ， 用 于 测量 被 试 基本 数 
理 知 识 和 数学 推理 能 力 。 

类 同 测验 : 共 13 题 ， 要 求 被 试 说 出 两 件 事 或 物 的 相似 之 
处 , 如 “和 低头 一 锯 子 ”"， 依 被 试 回答 的 全 面 程度 以 “0” “1” 
“2” 计 分 ， 用 于 测量 被 试 抽 象 逻辑 思维 和 分 析 概 括 能 力 。 

背 数 测验 : 由 主 试 口述 一 捉 由 3 ~ 12 个 数字 随机 排列 组 成 
的 数字 系列 ， 要 求 被 试 按 顺 序 复 述 ， 共 12 题 ; 再 由 主 试 口述 
一 串 由 2~ 9 个 数字 随机 排列 组 成 的 数字 系列 ， 变 求 被 试 倒 着 
复述 ， 共 10 题 。 结 果 以 “0” "1” “2” 计 分 ， 用 于 测量 被 试 的 
注意 力 和 短 时 记忆 能 力 。 

词汇 测验 ， 主 试 将 一 张 包 括 40 个 词汇 的 词 表 呈现 在 被 试 
面前 ， 要 求 被 试 指出 主 试 所 读 的 词 ， 并 对 其 意义 进行 解释 。 结 
果 以 “0”"1”“2” 计 分 。 用 于 测量 被 试 的 言语 理解 能 力 。 . 

便 操 作 量 表 .| 

数字 符号 测验 : 呈现 数字 与 符号 的 对 应 样 例 : 1 ~ 9 每 个 
数字 对 应 一 种 符号 。 要 求 被 试 根 据 样 例 在 每 个 数字 下 填 上 相应 
的 符号 ， 限 时 进行 以 “0”、“1” 计 分， 用 于 测量 被 试 建立 新 
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概念 的 能 力 和 知觉 辨别 速度 。 

填 图 测验 ; 共 21 张 画 片 ， 每 张 图 上 都 有 缺失 的 部 分 ， 例 
如 : 大 没有 耳 杀 ,动物 没有 尾巴 等 ， 要 求 被 试 指出 缺失 的 部 
分 ， 以 “0"”“1i” 计 分 ， 用 于 测量 被 试 视 觉 记 忆 与 辨别 能 力 。 

积木 图 案 测 验 : 给 被 试 9 块 积木 ， 每 块 各 面 分 别 涂 有 全 
红 、 全 白 或 半 红 半 白 的 颜色 ; 同时 给 被 试 呈现 10 个 图 形 ， 要 
求 被 试 在 限定 时 间 内 用 积木 拼 摆 出 所 呈现 的 图 形 。 此 分 测验 主 
要 用 于 油 重 被 试 视 知觉 组 织 、 视 动 协调 及 分 析 综 合 能 力 。 

图 片 排列 测验 : 共 8 组 图 片 ， 每 组 图 片 打 乱 顺 序 后 呈现 给 
被 试 ， 要 求 被 试 重新 以 适当 顺序 排列 ， 以 组 成 一 个 连贯 的 故事 
情节 。 用 于 测量 被 试 分 析 综 合 和 知觉 组 织 能 力 。 

拼图 测验 : 要 求 被 试 将 一 个 被 切割 成 几 块 的 图 形 拼 好 ， 根 
据 被 试 完成 的 速度 来 计 分 ， 用 于 测量 知觉 组 织 及 概括 思维 
能 力 。 

多 AIS-- RC 建立 了 农村 和 城市 两 个 常 模 ， 从 16 岁 至 65 
岁 以 上 共 分 8 个 年 龄 组 ， 人 口 组 成 情况 主要 依据 长 沙市 及 其 郊 
区 的 有 关 资 料 ， 不 过 实际 取样 来 自 21 个 省 。 

(2) WAIS - RC 的 信和 度 和 效 度 。 

对 多 AIS - RC 的 信 度 研究 表明 : 各 分 测验 的 分 半 信 度 在 
不 同年 龄 组 的 分 布 为 0.30 ~ 0.85 之 间 ， 各 分 量 表 和 全 量 表 的 
再 测 信 度 在 0.82 ~0.89 之 间 。 

对 可 AIS - RC 的 效 度 研究 表明 : 在 高 考 成 绩 上 差异 显著 
的 被 试 , 在 WAIS - RC 测 得 的 智 高 上 同样 表现 出 显著 差异 ， 
说 明 如 AIS 一 RC 具有 一 定 的 效 度 。 


(二 )》 韦 氏 儿 可 智力 量 表 
1. 韦 氏 儿童 智力 量 表 英文 版 
(1) 韦 氏 儿童 智力 景 表 的 产生 与 发 展 。 
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韦 氏 儿童 智力 量 表 (WISC) 是 韦 氏 成 人 智力 量 表 向 较 低 
年 龄 水 平 的 扩展 。 它 是 1949 年 由 韦 克 斯 勒 在 多 -BI 的 基础 
上 黎 订 而 戒 。 它 基本 上 保留 了 原来 的 测验 形式 ， 只 是 降低 了 测 
验 难度 ， 并且 增添 了 一 个 迷津 分 测验 ， 用 于 测 景 知觉 的 速度 和 
准确 性 。 它 的 主要 特色 在 于 放弃 智 龄 概念 ， 采 用 离 盖 智商 代替 
比率 智商 ， 并 使 得 离 差 智商 从 此 成 为 智力 测验 中 最 广泛 使 用 的 
指标 。 : 
韦 克 斯 勒 于 1974 年 完成 对 WISC 的 修订 和 重新 标准 化 的 
工作 ,发 表 了 韦 氏 儿童 智力 若 表 修订 版 (WISC - R)。 

WISC - R 共 包 括 12 个 分 测验 ， 分 别 构 成 言语 量 表 和 操作 
量 表 ， 其 中 背 数 和 迷津 两 个 分 测验 是 备用 测验 ， 可 作为 某 一 局 
类 测验 的 替换 或 补充 测验 。 

WWISC - R 适用 于 6~16 岁 的 儿童 ， 从 6 岁 0 个 月 到 16 岁 
11 个 月 ,每 四 个 月 为 一 个 年 龄 组 ,分 别 建立 了 常 模 表 ， 可 直 - 
接 由 原始 分 查 得 言语 智商 、 操 作 智 离 和 总 智商 。 

(2) 韦 氏 儿童 智力 量 表 的 信和 度 和 效 度 。 

息 信 度 

研究 表明 : WISC - R 中 各 分 测验 的 分 半 信 度 分 布 在 0.70 
~0.86 之 间 ， 再 测 信 度 在 0.65 ~ 0.88 之 间 ; 各 分 量 表 和 全 量 
表 的 分 半 信 度 在 0.90 ~ 0.96 之 间 ， 再 测 信和 度 在 0.90 ~ 0.95 
之 间 。 

生效 度 

WISC - R 的 效 度 证 据 来 自 以 下 几 个 方面 : 

效 标 关 联 效 度 ， 以 年 龄 为 效 标 ， 可 证 实 WISC - R 上 的 大 
始 分 数 确实 随 年 龄 增长 而 提高 ; 以 学 织 测 验 或 其 他 学 业 成 就 为 
效 标 ， 发 现 入 ISC - R 与 这 些 效 标 闻 的 相关 系数 在 0.50 ~ 0.60 
之 间 ; 以 斯 比 量 表 为 效 标 ， 发 现 WISC - R 的 总 智商 ， 言 语 智 
商 及 操作 智商 与 斯 比 量 表 的 智商 之 间 在 各 年 龄 组 的 平均 相关 为 
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0.60~0.71 之 间 。 

结构 效 度 : 对 义 ISC - R 的 因素 分 析 结 果 和 对 多 AIS 的 分 
析 极 为 相似 ， 局 样 发 现 了 智力 一 般 因 素 的 存在 。 同 时 WISC - 
R 中 的 言语 量 表 和 操作 量 表 在 各 年 龄 组 的 平均 相关 为 0.60 ~ 
0.73， 说 明 二 者 之 间 存 在 许多 共同 变异 ， 这 为 智力 CG 因 罕 的 
存在 进一步 提供 了 证 据 。 

2. 韦 氏 儿童 智力 量 表 中 国 修 订 本 

WISC - R 的 中 译本 于 1979 年 由 林 传 鼎 、 张 厚 紫 等 人 提出 
并 于 1981 年 底 初 步 完 成 修订 工作 。 这 次 和 修订 的 重点 在 于 删改 
一 些 文字 内 容 和 图 像 ， 使 题目 尽 可 能 地 适合 中 国 儿 童 特点 ， 并 
在 此 基础 上 编制 中 国 常 模 。 该 测验 的 常 模 团体 取样 来 自 大 、 中 
城市 ， 因 而 只 适用 于 中 等 以 上 城市 的 儿童 。 其 信和 度 和 和 效 度 了 世 已 
在 一 定 程 度 上 得 到 某 些 研究 结果 的 支持 。 


(三 ) 韦 氏 幼儿 智力 量 开 

韦 氏 幼儿 智力 量 表 (WPPSI) 出 版 于 1967 年 ， 适 用 于 4 
~6 岁 半 的 儿童 。 

WPPSI 同样 包括 11 个 分 测验 ， 其 中 3 个 分 测验 (句子 复 
述 、 动 物 房 、 几 何 图 案 》 是 为 了 适应 幼儿 特点 而 新 编 的 ， 另 外 
8 个 (常识 、 理 解 、 词 汇 、 算 术 、 类 同 、 填 图 、 迷 津 、 积 木 图 
案 ) 则 与 多 ISC 相同 。 

WPPSI 亦 给 出 言语 智商 、 操 作 智商 和 总 智商 。 其 常 模 团 
体 取 自 美国 不 同 地 区 、 种 族 和 家 宪 的 儿童 ， 每 半 岁 为 一 年 齿 
组 ， 每 一 年 龄 组 都 建立 了 常 模 表 。 

多 PPSI1 在 手册 中 报告 言语 年 表 、 操 作 量 表 和 全 量 表 的 分 
半 信 度 在 0.84 ~0.94 之 间 ， 再 测 信和 度 在 0.86 ~ 0.92 之 间 。 对 
多 PPSI 的 因素 分 析 发 现 了 智力 G 因素 的 存在 ; 同时 ， 对 98 名 
5~6 岁 儿童 的 施 测 结果 表明 : WPPSI 的 各 分 量 表 及 全 量 表 的 
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智商 与 斯 比 量 表 的 矢 商 的 相关 系数 在 0.56 ~ 0.76 之 间 。 上 述 
这 些 结果 为 WPPSI 的 信 度 和 效 度 提供 了 支持 。 

韦 氏 的 3 种 智力 量 表 下 相 衔接 ， 适 用 的 年 龄 范围 可 从 幼儿 
直到 老年 ， 成 为 矢 力 评估 中 最 广泛 使 用 的 工具 。 


第 三 节 ”团体 智力 测验 


第 一 次 世界 大 战 期 间 ， 美国 心理 学 会 主席 耶 克 斯 
(M.R. Yerkes) 和 桑 代 克 、 推 孟 等 许多 著名 心理 学 家 提出 用 浏 
验 招 募 和 选 投 土 兵 。 但 面 对 短 时 间 内 动员 数 百 万 兵员 的 任务 ， 
采用 个 别 施 测 的 智力 测验 显然 元 法 完成 任务 。 于 是 ， 在 推 孟 的 
学 生 奥 蒂 斯 (A.S.OTis) 编制 的 团体 智力 测验 的 基础 之 上 产 
生 了 陆军 甲 种 测验 ， 后 来 又 针对 不 识 英文 或 有 陪读 障碍 的 人 编 
制 出 陆军 乙 种 测验 。 从 1917 年 9 月 到 1919 年 1 月 ， 受 测 者 总 
人 数 达 170 多 万 人 。 陆 军 测验 的 成 功 ， 使 团体 智力 测验 的 研 
究 、 编 制 及 应 用 迅速 发 展 起 来 。 本 书 将 简单 介绍 其 中 一 些 影 响 
较 大 、 应 用 较 广 泛 的 团体 智力 测验 。 


一 、 陆 军 测验 


陆军 甲 种 测验 由 8 个 分 测验 组 成 ， 包 括 指使 测验 ( 照 令 行 
这 测验 ) 、 算 术 测 验 、 常 识 测 验 、 异 同 测验 (区别 同义词 和 反 
义 词 )、 字 句 重 织 测验 、 填 数 测验 、 类 比 推理 测验 和 理解 测验 
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陆军 乙 种 测验 属于 非 文字 测验 ， 由 7 个 分 测验 组 成 ， 包 括 
迷津 、 立 方 体 分 析 、 补 足 数列 、 译 码 、 数 字 校对 、 图 画 补缺 和 
几何 形 分 析 。 

陆军 甲 种 测验 的 效 度 资料 来 自 它 与 军官 评定 的 相关 〈0.50 
~0.70)， 与 斯 比 量 表 的 相关 “(0.80 ~ 0.90)， 与 教师 评定 的 相 
关 (0.67 ~0.82)， 以 及 与 学 业 成 绩 的 相关 (0.50 ~0.60)。 陆 
军 乙 种 测验 与 甲 种 测验 的 相关 达到 0.80。 


二 、 瑞 文 推理 测验 


(一 ) 瑞 文 推理 测验 的 产生 与 发 展 

瑞 文 推理 测验 是 由 英国 心理 学 家 瑞 文 (C.Raven) 编制 的 
一 种 团体 智力 测验 ， 又 称 瑞 文 渐进 图 阵 。 它 是 非 文 字 型 的 图 形 
测验 ， 分 为 三 个 水 平 ， 

1. 瑞 文 标准 推理 测验 

瑞 文 1938 年 编制 出 版 该 测验 ， 它 适用 于 5.5 岁 以 上 智力 
发 展 正常 的 人 ， 属 于 中 等 水 平 的 瑞 文 推理 测验 。 

2. 瑞 文 彩 图 推理 测验 

由 瑞 文 1947 年 编制 而 成 ， 适 用 于 幼儿 和 智力 低 于 平均 水 
平 的 人 ， 属 于 瑞 文 推理 测验 的 3 个 水 平 中 最 低 水 平 的 测验 。 

3. 英文 高 级 推理 测验 

最 初 编 于 1941 年 ， 经 1947 年 、1962 年 两 次 修订 成 为 现 
在 的 形式 ， 适 用 于 智力 高 于 平均 水 平 的 人 ， 是 最 高 水 平 的 瑞 文 
推理 测验 。 . 

以 上 3 种 水 平 的 瑞 文 推理 测验 均 由 两 种 题目 形式 组 成 ，- 
种 是 从 一 个 完整 图 形 中 挖 掉 一 块 。 另 一 种 是 在 一 个 图 形 拭 阵 中 
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缺少 ~- 个 图 形 ， 要 求 被 试 从 提供 的 几 个 备 选 答案 中 ， 选 择 出 一 
个 能 够 完成 图 形 或 符合 一 定 结构 排列 规律 的 图 案 。 

瑞 文 推理 测验 的 理论 假设 源 于 斯 皮尔 曼 的 智力 一 般 因 北 理 
论 。 瑞 文 将 智力 G 因素 划分 为 两 种 相互 独立 的 能 力 ， 一 种 称 
再 生性 能 力 ， 表 明 个 体 经 过 教育 之 后 达到 的 水 平 ; 一 种 称 推断 
福 能 力 ， 表 明 个 体 不 受 教育 影响 的 理性 判断 能 力 。 瑞 文 认为 ， 
词汇 测验 是 对 再 生性 能 力 的 最 有 效 测量 ， 而 非 言语 的 图 形 推理 
测验 则 是 对 推断 性 能 力 的 最 佳 测量 ， 这 就 是 瑞 文 推理 测验 的 
来 源 。 

瑞 文 测验 的 优点 在 于 测验 对 象 不 受 文 化 、 种 族 与 语言 等 条 
件 的 中 叶 ， 适 用 的 年 龄 范围 也 很 宽 ， 从 5 岁 半 直至 老年 ， 而 且 
不 排 陈 -- 些 生理 缺陷 者 。 测 验 既 可 个 别 进行 ， 也 可 团体 实施 ， 
使 用 方便 ， 省 时 省 力 ， 结 果 以 百 分 等 级 常 模 解 释 ， 直 观 易 届 ， 
因而 ， 该 测验 在 世界 各 国 广泛 通用 。 


(二 ) 瑞 文 标准 推理 测验 中 国 修订 本 

1985 年 ， 我 国 张 厚 全 教授 开始 主持 形 文 标准 推理 测验 中 
同城 市 版 的 修订 工作 。 

这 次 修订 工作 基本 保留 了 原 测验 的 项 目 形式 及 指导 语 。 测 
验 共 由 60 道 题目 组 成 ， 分 为 A、B、C、D、E 5 个 系列 ， 每 一 
系列 包含 12 个 题目 。 项 目 系列 由 易 至 难 排列 ， 每 一 系列 内 部 
的 项 目 亦 由 易 至 难 排列 。 每 一 项 目 均 为 “1”“0” 计 分 ,最 后 
很 据 总 分 查 得 常 模 表 中 相应 年 龄 组 的 百 分 等 级 。 : 

测验 常 模 团体 根据 人 口 普查 资料 取 自 全 国 大 、 中 、 小 城 
市 ， 取 样 时 注意 到 性 别 、 文 化、 职业 等 人 口 比例 分 配 ， 从 5 岁 
半 到 16 岁 半 每 半 岁 为 一 年 龄 组 ，20 岁 以 上 每 10 岁 为 一 年 龄 
组 ，17 岁 至 19 岁 为 一 年 龄 组 ，70 岁 以 上 为 一 年 龄 组 。 

瑞 文 标准 推理 测验 中 国 城 市 版 的 分 半 信 度 为 0.95， 再 测 
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信和 度 在 0.79 ~ 0.82 之 间 。 它 与 WISC - R 的 中 国 修 订 本 的 各 
分 量 表 及 全 量 表 的 相关 系数 在 0.54 ~0.71 之 间 ， 与 高 考 总 分 
的 相关 系数 为 0.45， 这 些 为 其 效 度 提供 了 支持 。 


三 、 认 知 能 力 测验 


认 知 能 力 测验 是 由 桑 代 克 等 美国 心理 学 家 于 1968 年 一 
1972 年 间 编 制 成 功 。 该 测验 由 四 个 不 同 部 分 组 成 ， 

初级 型 : 适用 于 小 学 低 年 级 儿童 。 使 用 图 片 材料 和 口头 指 
导语 ， 包 含 4 个 分 测验 : 口头 、 词 汇 、 关 系 概念 、 多 重 智力 和 
数量 概念 。 

文字 测验 : 适用 于 小 学 四 年 级 以 上 。 由 词汇 、 句 子 填充 、 
词语 分 类 、 词 语 类 推 4 个 分 测验 组 成 。 

数量 测验 : 适用 于 小 学 四 年 级 以 上 。 由 数 的 大 小 比较 ， 数 
列 补充 和 建立 关系 等 式 3 个 分 测验 组 成 。 

非 文字 测验 ; 适用 于 小 学 四 年 级 以 上 。 由 图 形 分 类 ， 图 形 
推理 和 图 形 综合 3 个 分 测验 组 成 。 

所 有 测验 的 题目 均 由 易 至 难 排列 ， 每 个 测验 均 有 几 套 不 同 
水 平 的 题目 ， 以 便 对 智力 成 熟 水 平 不 同 的 人 提供 适当 难度 的 测 
” 验 ， 结 果 以 离 差 智商 、 百 分 等 级 、 标 准 九 分 数 等 解释 。 

认 知 能 力 测验 具有 相当 详细 的 信 度 和 效 度 资 料 ， 表 明 其 各 
部 分 测验 的 再 测 信 度 系数 在 0.72 ~ 0.95 之 间 ; 同时 ， 它 对 学 
业 成 就 、 工 作成 就 、 职 业 类 型 等 有 相当 的 预测 能 力 。 

认 知 能 力 测验 是 一 个 应 用 相当 广泛 的 团体 智力 测验 ， 在 实 
践 中 显示 了 较 高 的 应 用 价值 ， 只 是 至 今 未 有 中 文 修订 本 出 现 ， 
因而 在 国内 该 测验 只 供 研究 使 用 。 
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练习 与 思考 


. 试 谈 智力 测验 的 效 度 河 题 。 

. 智力 测验 的 功能 是 什么 ? 

. 为 什么 说 “智力 测验 面前 并 非 人 人 平等 "? 

.“ 试 析 智 力 测 验 存在 的 合理 性 。 

.“ 试 析 智 力 的 形式 与 发 展 过 程 中 的 遗传 与 环境 的 关系 。 


Wn 一 
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第 十 三 章 能力 测验 (下 ) 


本 章 提 要 : 

全 能 力 倾 向 测验 的 性 能 与 编制 、 典 型 能 力 倾 向 测验 的 
性 能 

急 特 殊 能 力 测验 的 作用 、 典 型 特殊 能 力 测 验 介 绍 

全 创造 力 测验 的 理论 、 典 型 创造 力 测验 介绍 
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第 一 节 ”能 力 倾向 测验 
一 、 能 力 倾 向 测验 的 产生 


(一 ) 理论 的 支持 

在 智力 的 心理 测量 学 的 理论 研究 中 ， 由 斯 皮尔 曼 提 出 的 一 
般 智力 因素 得 到 了 充分 的 重视 以 及 普遍 的 认可 ， 因 而 在 此 共 础 
上 产生 了 传统 的 智力 测验 并 且 广 泛 地 应 用 于 社会 之 中 。 但 是 ， 
关于 智力 实质 的 理论 研究 和 争议 并 未 因此 而 停止 。 以 瑟 斯 顿 和 
吉尔 福特 为 首 的 智力 多 因素 论 者 虽然 最 后 不 得 不 承认 智力 G 
因素 的 存在 ， 但 他 们 始终 强调 的 是 构成 智力 的 多 种 基本 能 力 因 
奈 ， 并 视 其 为 智力 结构 中 的 核心 因素 群 ， 认 为 应 从 这 些 不 同 的 
能 力 因 素 人 手 评估 智力 。 在 弗 农 的 智力 层次 理论 中 ， 智 力 被 作 
了 进一步 的 细 分 ， 呈 树 状 结构 ， 智 力 的 一 般 因素 被 分 为 几 个 主 
要 的 能 力 因 素 ， 最 后 再 纲 分 为 众多 的 基本 能 力 因 素 。 在 这 样 的 
智力 结构 理论 的 发 展 过 程 中 ， 因 素 分 析 方 法 的 发 展 和 应 用 起 了 
决定 性 作用 ， 它 使 得 智力 所 包含 的 各 种 不 同 能 力 因 素 能 够 被 辨 
别 ， 分 类 和 定义 ， 进 而 使 得 对 这 些 能 力 因 素 有 针对 人 性 地 测量 变 
为 可 能 。 


《二 ) 实践 的 推动 
传统 的 智力 测验 一 经 产生 ， 便 被 迅速 且 广 泛 地 应 用 于 社会 
各 个 方面 ， 在 对 个 体 差异 的 测量 。 志 其 是 对 个 体 的 分 类 和 预测 
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上 显示 了 一 定 的 价值 。 但 正如 我 们 在 上 一 章 中 所 论述 的 ， 人 们 
在 使 用 智力 测验 的 过 程 中 ， 也 逐渐 发 现 其 缺陷 与 不 足 之 处 ， 其 
中 之 一 便 是 对 智力 测验 结果 的 单一 分 数 的 解释 问题 。 从 智力 测 
验 所 依据 的 理论 基础 来 看 ， 这 一 -分数 表 明 的 是 个 体 在 一 般 智力 
上 的 差异 ， 但 在 实际 实施 与 解释 中 ， 人 们 发 现 即使 某 些 被 试 得 
到 同样 的 智商 分 数 ， 他 们 在 不 同 的 题目 类 型 中 所 表现 出 来 的 成 
绩 却 是 不 一 致 的 。 因 而 ,要 想 在 更 精确 的 意义 上 来 解释 个 体 的 
能 力 差 异 ， 传 统 智力 测验 显然 是 不 够 的 。 

随 荐 社会 的 发 展 ， 学 校 专 业 与 工作 职业 的 选择 和 咨询 ， 以 
及 人 事 工 作 的 科学 管理 逐渐 普及 。 作 为 心理 学 家 和 教育 学 家 ， 
他 们 所 关心 的 实际 问题 之 一 ， 就 是 引导 青年 人 选择 和 从 事 他 们 
自己 所 喜爱 的 并 将 会 有 所 作为 的 专业 与 工作 ; 作为 人 事 管理 人 
员 ， 他 们 首要 的 任务 就 是 选拔 出 对 即将 担任 的 工作 有 兴趣 并 且 
完全 能 够 胜任 的 人 ， 并 且 将 每 个 人 安置 在 他 最 有 可 能 发 挥 特长 
的 岗位 上 ， 而 对 于 每 个 人 来 说 ， 他 们 也 希望 在 面临 求学 或 就 业 
选择 时 ， 能 够 清楚 地 了 解 自 己 在 不 同 的 能 力 因 素 方面 的 优 劣 程 
度 ， 从 而 能 够 最 有 成 效 地 决定 自己 的 发 展 方向 。 在 这 种 种 决策 
过 程 中 ， 能 力 测验 将 是 最 主要 的 辅助 工具 之 一 。 因 此 ， 社 会 需 
要 能 力 测验 的 呼声 很 高 ， 传 统 的 智力 测验 在 此 却 显 得 势 单 力 
薄 : 许多 研究 表明 ， 不 同性 质 的 工作 要 求 不 同 的 知识 和 能 力 专 
长 。 这 似乎 是 显而易见 的 事实 ， 会 计 需 要 快捷 的 计算 能 力 , 律 
师 需 要 领会 和 运用 语言 的 能 力 ， 美 术 家 需要 空间 关系 的 知觉 和 
想象 能 力 ， 机 器 修配 工 需要 机 械 操作 能 力 ， 等 等 。 那 么 ， 要 想 
在 人 员 和 工作 之 间作 出 最 佳 匹配 ， 使 得 物 尽 其 材 ， 人 尽 其 用 ， 
就 必须 清楚 每 个 工作 所 要 求 的 主要 能 力 因 素 以 及 每 个 人 员 所 具 
备 的 主要 能 力 素 质 。 此 时 ,运用 传统 智力 测验 显然 不 能 完美 地 
解决 问题 ， 它 只 能 就 一 个 单一 而 笼统 的 智商 分 来 解释 和 比较 个 
体 间 差 异 ， 却 不 能 对 此 差异 内 部 的 一 些 现象 做 更 进一步 的 客观 
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判断 ， 更 无 法 比较 不 同 能 力 因 素 上 的 个 体内 差异 。 因 此 ， 它 既 
不 能 为 个 体 提供 自身 在 不 同 能 力 上 的 水 平分 布 状况 ， 也 不 能 帮 
助人 事 管理 部 门 有 效 选择 和 安置 在 工作 所 需 的 特定 能 力 上 水 平 
相对 最 高 的 人 员 。 

由 于 社会 追 切 需要 能 够 辨别 和 判断 在 不 同 能 力 因素 上 的 个 
体 间 以 及 个 体内 差异 ， 而 当时 现 有 的 能 力 测验 一 一 智力 测验 又 
无 法 满足 这 一 要 求 ， 同 时 ， 因 素 分 析 方 法 又 使 一 般 智 力 中 所 蕴 
含 的 各 种 不 同 能 力 因素 的 辨别 分 类 成 为 可 能 ， 能 力 倾向 测验 应 
运 而 生 。 

1941 年 ， 琶 斯 顿 在 自己 的 智力 理论 支持 下 ， 编 制 并 且 发 
表 了 第 一 个 能 力 倾向 成 套 测 验 一 -基本 心理 能 力 测 验 
(PMA)， 主 要 测量 五 种 能 力 因 素 : 言语 能 力 、 数 的 能 力 、 知 
觉 速度 、 推 理 能 力 和 空间 关系 认 知 能 力 ， 目 的 是 为 了 了 和解 和 预 
测 学 生 在 各 门 课程 中 的 学 习 情 况 。 由 于 该 测验 存在 许多 技术 忽 
陷 ， 因 而 现在 较 少 应 用 ,但 它 具 有 重要 的 历史 意义 ， 为 此 后 发 
展 起 来 的 各 种 能 力 倾向 测验 的 先驱 。 

在 近 几 十 年 里 ， 能 力 倾向 测验 得 到 迅速 发 展 ， 新 测验 层 出 
不 穷 ， 并 且 大 量 地 应 用 于 社会 ， 成 为 人 员 选 氢 与 安置 等 决策 的 
有 效 辅助 工具 。 


二 、 能 力 倾向 测验 的 特点 


结合 能 力 倾 向 测验 产生 的 理论 及 实践 背景 考虑 ， 其 特点 主 
要 表现 于 以 下 几 个 方面 : 
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(一 ) 测验 的 目的 

成 就 测验 的 目的 与 能 力 倾向 测验 不 同 。 所 谓 成 就 ， 是 指 个 
体 经 过 一 定 的 教学 或 训练 后 所 掌握 的 知识 水 平 或 所 达到 的 能 旋 
水 平 ， 它 针对 于 特定 的 学 习 经 验 ， 强 调 个 体 目前 已 经 达到 的 水 
平 。 换 言 之 ， 成 就 测验 是 对 个 体 过 去 学 习 经 验 的 总 结 。 

能 力 倾 向 指 的 是 个 体 在 不 同 能 力 因 素 上 湾 在 的 优 劣 倾 向 。 
当 能 力 倾向 测验 首次 出 现时 ， 能 力 倾向 被 定义 为 不 是 建立 在 经 
验 之 上 的 、 特 殊 的 、 天 生 或 遗传 的 能 力 。 现 在 看 来 ， 这 一 定义 
似乎 有 失 偏颇 。 严 格 地 说 ， 任 何 能 力 都 在 一 定 程度 上 既 依赖 于 
遗传 的 潜能 ， 又 依赖 于 生活 环境 中 所 积累 的 经 验 ， 能 力 倾向 同 
样 如 此 。 然 而 ， 能 力 倾 向 虽 也 依赖 于 个 体 的 生活 经 验 ， 但 并 不 
直接 依赖 于 专门 的 教学 或 训练 。 卡 洛 尔 (J.B. Carroll) 等 人 的 
一 些 研究 表明 ， 具 体 的 课程 教学 或 知识 技能 训练 可 以 显著 改善 
成 就 测验 的 成 绩 ， 面 对 能 力 倾向 测验 的 成 绩 却 没有 影响 。 央 
而 ， 能 力 倾向 测验 的 目的 不 在 于 总 结 过 去 ， 而 在 于 预测 将 来 ， 
即 预 测 个 体 在 将 来 的 学 习 或 工作 中 可 能 达到 的 成 功 程度 。 如 某 
人 的 测验 结果 表明 他 在 逻辑 推理 能 力 上 有 明显 的 优势 ， 我 们 可 
以 预测 此 大 将 来 在 理科 课程 的 学 习 中 可 能 取得 较 好 的 成 绩 。 

虽然 智力 测验 的 主要 目的 也 在 于 预测 ， 但 由 于 其 所 依据 的 
理论 基础 与 能 力 倾 向 测验 不 同 ， 它 所 作出 的 预测 比较 笼统 ， 针 
对 性 较 弱 。 而 能 力 倾向 测验 预测 的 目的 性 更 强 ， 它 试图 说 明 个 
体 在 多 种 能 力 上 的 洪 在 优势 ， 并 进而 和 专业 或 工作 所 需 结合 
起 来 。 


(二 ) 测验 的 编制 
能 力 倾 向 测验 一 般 同时 测量 几 种 能 力 因素 ， 以 分 测验 形式 
组 成 ,每 个 分 测验 针对 一 种 能 力 ， 每 个 测验 应 该 是 独立 的 ， 并 
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且 ， 各 分 测验 间 的 相关 要 尽 可 能 低 。 测 验 的 内 容 涉 及 广泛 ， 不 
像 成 就 测验 那样 具有 明确 限定 的 内 容 范围 ， 且 较 少 涉及 与 学 校 
习 得 知识 有 关 的 内 容 。 

由 于 各 分 测验 的 结果 不 仅 要 在 个 体 之 间 进 行 比较 ， 而 且 还 
要 在 个 体内 部 进行 比较 ， 因 此 各 分 测验 必须 使 用 相同 的 常 模样 ， 
本 ， 且 应 具有 较 高 的 信和 度 。 


(三 》 测 验 结果 的 解释 

被 试 在 能 力 倾向 测验 上 可 以 得 到 若干 测验 分 数 。 这 些 分 数 
既 可 表明 不 同 被 试 在 每 一 分 测验 所 测 能 力 上 的 相对 位 置 水 平 ， 
又 可 表明 同一 被 试 在 所 测 各 能 力 上 的 相对 优 劣 状况 。 一 般 能 力 
倾向 测验 往往 会 用 能 力 谢 面 图 来 呈现 个 体内 差异 。 

由 于 不 同 工 作 一 般 需 要 不 同 的 能 力 特长 ， 但 又 往往 不 只 需 
要 一 种 能 力 ， 因 此 ， 当 用 能 为 倾向 测验 预测 个 体 在 某 工 作 上 的 
可 能 成 功 程度 时 ， 需 要 解决 各 分 测验 的 分 数组 合 问题 ， 即 如 何 
确定 各 种 能 力 因素 〈 各 分 测验 分 数 ) 的 理想 权重 。 针 对 不 同 工 
作 ， 不 同 能 力 因 素 的 权重 应 有 变化 。 一 般 采 用 多 重 回 归 模 式 解 
决 这 一 问题 。 | 四 


三 、 具 体能 力 倾向 测验 介绍 


(一 ) 学 术 能 力 倾向 测验 (SAT) 


学 术 能 力 倾向 测验 〈《Scholastie Aptitude Test， 以 下 简称 
SAT) 相当 于 我 国 的 高 考 ， 是 大 学 录 寻 取 新 生 的 一 项 主要 参考 
依据 ， 每 年 在 美国 和 世界 各 地 举行 多 次 - SAT 由 美国 教育 测 
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验 服 务 中 心 主 持 试题 编制 和 试卷 分 析 等 工作 ， 几 十 年 来 技术 不 
断 改 进 ， 如 今 已 属于 技术 上 最 完备 的 测验 之 一 ， 每 一 新 试卷 都 
已 达到 了 高 度 的 标准 化 。 

SAT 测量 的 目的 不 在 于 总 结 学 生 在 中 学 时 学 到 多 少 知识 ， 
而 在 于 预测 学 生 是 否 具备 大 学 学 习 和 研究 的 能 力 ， 以 及 倾向 于 
在 哪些 专业 领域 更 具 优 势 ， 因 此 SAT 筛选 题目 的 主要 依据 是 
预测 外 在 效 标的 有 效 性 ,测验 材 料 一 般 避 免 过 多 依赖 具体 的 知 
识 和 教学 经 验 ， 而 是 迁移 到 各 种 广泛 情境 的 技能 和 材料 上 ， 学 
生 则 必须 把 他 的 知识 和 能 力 应 用 到 新 异 的 情境 。 

SAT 包括 两 部 分 内 容 : 语言 和 数学 。 语 言 部 分 包括 反 义 
词 、 句 子 填充 、 类 比 推理 、 阅 读 理解 等 内 容 ， 考 查 学 生 在 词汇 
量 、 阅 读 理解 、 逻 辑 思 维 、 以 及 作出 判断 和 结论 的 能 力 。 数 学 
部 分 包括 算术 、 代 数 和 几何 等 内 容 ， 考 查 学 生 在 数学 运算 、 推 
理 能 力 以 及 应 用 数学 概念 与 知识 解决 实际 问题 的 能 力 。 

SAT 题 型 组 为 多 重 选择 题 ， 有 四 五 个 选择 项 ,测验 时 限 
为 3 个 小 时 ， 测 验 结果 包括 语言 和 数学 两 个 分 数 ， 没 有 合成 
分 。 一 般 大 学 不 会 公布 录取 分 数 线 ， 基 为 美国 录取 新 生 不 仅 参 
照 SAT 成 线 ， 同 时 还 要 结合 学 生 的 中 学 成 绩 单 、 教 师 推 荐 信 、 
所 在 中 学 的 相对 水 平 以 及 学 生 的 性 格 、 兴 趣 和 特长 等 多 方面 资 
料 来 综合 考 虚 。 


(二 ) 分 辩 能 力 倾 向 测验 (DAT) 

分 辨 能 力 倾向 测验 (Differential Aptitude Test, 以 下 简称 
DAT) 是 由 美国 心理 公司 于 1947 年 初版 并 于 1963 年 和 
1972 年 两 次 修订 和 进一步 完善 ， 是 应 用 最 广泛 的 成 套 能 力 怖 
向 测验 之 一 ， 主 要 适用 于 初中 和 高 中 学 生 的 教育 咨询 及 就 业 
指导 。 

DAT 包括 8 个 分 测验 、 单 独 施 测 并 单独 记分 : 
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1. 言语 推理 

测验 项 目 类 型 为 类 比 推理 ， 每 题 提 供 5 对 备 选 答案 ， 内 容 
涉及 历史 、 地 理 、 文 学 、 科 学 等 多 方面 知识 ， 目 的 在 于 测量 和 
评价 个 体 的 言语 理解 与 抽象 概括 以 及 作 建 设 性 思考 的 能 力 ， 从 
而 进一步 预测 个 体 是 否 适宜 从 事 以 复杂 的 言语 关系 及 概念 为 主 
的 学 科 或 职业 ， 如 高 深 的 科学 研究 工作 等 。 

2. 数 的 能 力 

测验 项 目 类 型 为 计算 题 ， 不 过 题目 具有 一 定 的 复杂 性 ， 并 
不 是 只 反映 计算 的 熟练 程度 ， 还 需要 对 数目 关系 的 理解 能 力 以 
及 处 理 数目 概念 的 灵活 性 。 测 量 目的 在 于 评估 个 体 对 数目 进行 
推理 ， 思 考 数 量 关系 以 及 明智 地 处 理 数量 材料 的 能 力 ， 进 而 对 
个 往 在 教育 或 职业 方面 的 选择 与 发 展 作出 预测 ， 如 ， 教育 方 
面 ， 可 用 于 预测 数理 化 、 工 程 等 学 科 ; 职业 方面 ， 可 用 于 预测 
统计 工作 者 、 工 艺 制作 者 以 及 与 自然 科学 有 关 的 各 种 职业 。 

3. 抽象 推理 , 

测验 项 目 是 非 文 字 材 料 ， 呈 现 的 是 一 组 组 成 一 定 联系 或 按 
次 序 排列 的 问题 图 形 ， 要 求 被 试 找 出 可 和 使 这 种 排列 连续 下 去 的 
图 形 ， 作 答 关 键 在 于 找 出 每 组 图 形变 化 的 原则 或 规律 ， 和 言语 
推理 并 不 相同 。 不 过 对 于 言语 方面 不 能 沟通 的 被 试 ， 本 测验 分 
数 可 以 校正 在 言语 推理 测验 的 得 分 。 

4. 文书 速度 与 准确 性 

测验 要 求 被 试 首先 在 测验 本 上 选 出 画 了 记号 的 一 个 符号 组 
合 ， 然 后 在 答案 纸 上 找 出 相同 的 一 个 组 合 。 测 验 项 目 所 提供 的 
情境 和 一 些 实际 的 文书 工作 比较 相近 ， 目 标 在 于 测量 对 简单 知 
觉 工 作 的 知觉 速度 、 短 时 记忆 和 反应 速度 ， 是 DAT 中 唯一 以 
速度 为 主 的 测验 ， 对 于 档案 或 资料 整理 及 管理 等 方面 工作 具有 
一 定 的 预测 意义 。 
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5. 机 械 推理 

测验 项 目 设 计 一 些 机 械 装 置 或 情景 ， 要 求 被 试 指出 哪 种 选 
择 符合 情景 ， 测 量 对 表现 于 热 悉 情 境 中 的 机 械 和 物理 原理 的 理 
解 力 ， 但 被 试 是 否 受 过 物理 学 的 正式 如 练 对 测验 结果 影响 不 
大 。 凡 含有 普通 物理 原则 的 课程 及 职业 ， 如 物理 或 机 械 技术 等 
课程 以 及 木工 、 宙 工 、 机 器 装配 与 维修 等 工作 ， 都 需 槛 一 定 的 
机 械 推理 能 力 。 

本 测验 的 结果 存在 显著 的 性 别 差 异 ， 女 生 的 分 数 普遍 低 于 
男生 。 

6. 空间 关系 . 

测验 项 目 要 求 被 试 能 在 心理 上 操纵 三 维 空间 ， 即 能 够 对 所 
显示 的 平面 图 在 想象 中 从 不 同方 位 进行 转换 和 折 琶 ， 测 量 个 体 
经 由 视觉 想象 处 理 具体 材料 的 能 力 。 很 多 专业 或 职业 需要 这 种 
空间 知觉 能 力 ， 如 美术 、 建 筑 、 服 装 设计 等 。 

7. 语言 运用 : 拼写 

测验 列 出 了 一 个 单词 表 ， 其 中 有 些 单词 有 拼写 错误 ， 被 试 
必须 指出 每 个 单词 的 拼写 正 误 。 

8. 语言 运用 : 文法 

测验 项 目 由 若干 句子 组 成 ， 每 个 句子 被 记号 划分 为 几 个 部 
分 ,要求 被 试 从 语法 或 修辞 等 角度 找到 错误 或 不 合理 的 那 一 
部 分 。 

测验 7 和 8 的 内 容 和 形式 更 近乎 于 成 就 测验 ,但 由 于 它们 
测量 了 诸如 速记 、 秘 书 、 新 闻 、 广 告 等 若 于 专业 或 职业 活动 中 
所 必须 的 基本 技能 ， 因 而 被 纳 人 DAT 中。 由 于 这 两 个 测验 之 
间 相 关 较 低 ， 因 而 分 别 计 分 。 

除了 文书 速度 与 准确 性 测验 之 外 ，DAT 的 分 测验 基本 上 
是 能 力 测验 ， 可 男 体 施 测 ， 其 时 间 限 制 在 多 数 情 况 下 为 30 分 
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钟 ， 成 套 测 验 总 测 时 间 大 约 为 5~5 寺 小 时 ， 一 般 至 少 分 两 次 
进行 。 每 一 分 测验 都 有 年 级 百 分 常 模 《 从 八 年 级 到 十 二 年 级 )， 
语言 推理 和 数字 能 力 的 组 合 也 有 常 模 ， 该 常 模 可 用 于 评价 一 般 
的 学 术 能 力 倾向 。 根 据 常 模 将 每 一 个 体 在 测验 上 的 原始 分 数 转 
化 为 百 分 位 数 后 ， 可 绘制 个 人 能 力 倾向 剖面 图 。 

DAT 的 能 力 剖 面 图 既 可 直观 提供 个 人 在 8 种 能 力 倾向 上 
的 内 部 差异 ， 又 可 表明 个 人 在 每 种 能 力 倾向 上 相对 于 同年 级 团 
体 的 相对 位 置 。 因 而 ， 该 剖面 图 可 帮助 学 生 了 解 自 己 的 长 处 和 
弱点 ， 从 而 更 能 了 解 自己 在 某 些 学 科学 得 好 或 不 好 的 原因 ， 进 
而 有 效 选 择 自己 今后 的 教育 和 职业 方向 。 并 且 ， 学 生 也 可 从 
自己 的 能 力 剖 面 图 中 发 现 自己 以 前 未 曾 认识 到 的 或 被 低估 的 沾 
力 ， 从 而 激发 较 强 的 成 就 动机 。 对 于 学 校 而 言 ， 当 他 们 录取 学 
生 时 、DAT 可 为 他 亿 提 供 每 个 申 读者 在 多 方 硬 能 力 天 宕 上 的 


EN 
一 组 临界 分 数 ， 作 为 录取 学 生 的 标准 ， 也 可 进一步 用 于 安排 已 
录取 学 生 的 专业 。 

可 见 ，DAT 被 广泛 用 于 教育 领域 中 对 于 学 生 将 来 学 术 成 
就 的 预测 方面 ， 这 就 要 求 DAT 中 不 同 的 测验 对 不 同 的 学 科 的 
预测 是 有 效 的 。DAT 手册 中 提供 了 丰富 的 效 标 关联 效 度 资 料 ， 
表明 了 每 个 分 测验 对 不 同 的 学 科 的 预 油 力 是 有 差异 的 ， 如 言语 
推理 测验 的 结果 可 以 较 好 地 预测 英语 、 社 会 科学 等 学 科 成 绩 ， 
但 对 于 数学 的 预测 效果 较 差 : 又 如 机械 推理 在 对 自然 科学 学 
科 ， 打 字 和 工艺 方面 的 成 绩 预 测 上 比 对 数学 、 英 语 、 社 会 科学 
学 科 等 的 预测 更 为 有 效 。 这 些 预 测 上 的 差异 说 明 利 用 DAT 的 
不 同 分 测验 来 预测 学 生 将 来 的 学 术 成 就 是 有 效 的。 同时 ， 效 度 
资料 显示 ， 言 语 推理 和 数学 能 力 的 合成 分 数 对 于 所 有 学 科 都 有 
较 好 的 预测 作用 ， 因 而 这 一 分 数 可 被 看 作 一 般 学 习 能 力 倾向 的 
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体现 。 

最 后 需要 说 明 的 是 ，DAT 虽然 为 个 人 或 学 校 或 咨询 者 提 
供 了 比较 丰富 的 能 力 水 平 资 料 ， 从 而 为 决策 提供 了 依据 ， 但 仅 
仅 以 此 为 依据 尚 不 足以 做 出 准确 决策 ， 而 是 应 同时 结合 其 他 资 
料 ， 如 兴趣 测验 结果 、 学 业 成 绩 、 个 人 志愿 、 家 庭 背 景 等 进行 
综合 考 虞 。 


(三 ) 一 般 能 力 倾向 成 矢 测 验 (GATB) 

一 般 能 力 倾向 成 套 测 验 〈《GCeneral Aptitude Tests Battery， 
以 下 简称 GATB) 是 本 世纪 40 年 代 由 美国 劳工 部 就 业 保 险 局 
设计 而 成 的 综合 式 职业 性 向 测 痊 。GATB 是 在 对 早先 为 某 些 工 
作 而 准备 的 50 多 种 测验 进行 因素 分 析 的 基础 上 编制 而 成 的 ， 
包括 12 个 分 测验 ， 可 用 于 测量 9 种 能 力 优 向 因素 : 

. 1. 一 般 智力 (G6) 

指 掌握 基本 头 理 、 原 则 以 及 做 出 推理 、 判 断 的 能 力 ， 它 常 
与 学 业 成 绩 有 密切 相关 ， 可 由 词汇 、 算 术 推 理 和 空间 关系 3 个 
分 测验 相 结合 测量 而 得 。 

2. 言语 能 力 《VY) 

指 能 了 解 文字 的 意义 ， 掌 握 字 与 宇 之 间 关 系 并 能 有 效 使 用 
文字 的 能 力 ， 可 由 词汇 测验 来 测量 。 该 测验 要 求 被 试 从 4 个 一 
组 的 词汇 中 找 出 成 对 的 同义词 或 反义词 。 

3. 数 的 能 力 (N) 

指 能 正确 而 迅速 地 作 加 减 乘 除 运算 ,并 能 利用 算术 知识 解 
决 实际 问题 的 能 力 ， 由 计算 和 算术 推理 两 个 测验 相 结 合 测量 而 
得 。 这 两 个 测验 分 别 由 四 则 运算 题 和 应 用 题 组 成 。 

4. 空间 关系 理解 力 《S) 

指 能 在 心理 上 将 平面 图 形 转 换 为 具有 三 维 空间 关系 的 立体 
图 形 ， 并 能 从 不 同 角度 认识 同一 物体 的 能 力 ， 由 空间 关系 测验 
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进行 测量 ,测验 项 目 呈 现 一 个 平面 图 形 和 四 个 备 选 的 三 维 图 
形 ， 要求 被 试 判断 哪 一 个 三 维 图 形 是 由 给 出 的 平面 图 形 折 过 
而 来 。 

5. 形状 知觉 能 力 《P》 

指 能 觉察 到 实物 或 图 形 的 细节 、 能 对 图 形 的 外 形 与 明暗 上 
的 差异 或 线条 在 长 宽 上 的 细小 差异 作 正 确 的 比较 和 辨别 的 能 
力 ， 由 工具 辨认 测验 和 图 形 配 对 测验 联合 测量 。 这 两 个 测验 要 
求 从 备 选项 中 选择 出 与 给 定 工时 或 图 形 相沿 的 答案 。 

6. 文书 知觉 能 力 《Q) 

指 能 觉察 文字 、 符 号 、 表 格 上 细微 差异 以 及 能 快速 校对 文 
字 、 数 目 、 符 号 以 避免 抄写 或 计算 错误 的 能 力 ， 可 由 文字 校对 
测验 来 测量 。 此 测验 项 目 类 型 类 似 于 工具 辨认 和 图 形 配 对 测 
验 ， 只 是 测验 材料 由 文字 取代 了 实物 和 图 形 。 

7. 动作 协调 能 力 

指 能 使 手指 之 间 和 手眼 之 间 相 互 协 调配 合 ， 作 出 快速 且 精 
确 的 细微 动作 的 能 力 ， 可 由 画 记 测验 测量 。 该 测验 要 求 被 试 在 
一 系列 方 格 中 ， 用 铬 笔 作出 特定 的 记号 。 

8. 手指 灵巧 性 

指 能 灵活 运用 手指 、 以 双 卑 手指 快速 旦 精确 地 分 解 或 组 合 
小 物体 的 能 力 ， 可 由 装配 测验 和 拆 印 测验 相 结 合 进行 测量 。 这 
两 个 测验 使 用 同一 装置 : 一 块 板 的 两 头 各 有 50 个 孔 ， 在 其 中 
一 头 的 每 一 个 孔 中 放 有 一 个 小 锦 钉 ; 另外 ， 在 一 个 转轴 里 放 了 
一 选 垫 图 。 在 装配 测试 中 ， 要 求 被 试用 一 只 手 拿 起 一 枚 锦 钉 ， 
另 一 只 手 拿 起 一 个 垫圈 ， 并 把 垫圈 放 在 锦 钉 上 ， 然 后 把 它们 装 
配 到 板 的 另 一 头 相应 的 孔 上 ， 时 间 限 制 在 90 秒 钟 内 。 在 拆卸 
测试 中 ， 被 试 要 拆 掉 装配 好 的 锦 钉 和 垫圈 ， 把 它们 放 回 原 处 。 
结果 以 装配 或 拆 务 的 件 教 计 分 ， 
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9. 手 部 灵巧 性 

指 能 灵活 运用 手 脑 、 手 有 时， 将 物体 作 快 速 且 精 确 的 移动 或 
转动 的 能 力 。 该 能 力 由 两 个 排 板 测验 来 评定 ; 在 第 一 个 测验 
中 ， 被 试用 双手 把 置 于 一 块 拼 板 各 个 孔 内 的 栓 子 移 到 另 一 块 拼 
板 上 去 ; 在 第 二 个 测验 中 ， 被 试用 他 认为 比较 灵活 的 那 只 手 从 
拼 板 上 拔 起 一 个 栓 子 ， 在 手中 旋转 180 度 ， 再 把 这 个 栓 子 的 另 
一 端 重新 插 到 孔 内 。 

GATB 的 12 个 分 测验 中 ， 既 有 纸 笔 测验 ， 也 有 操作 测验 。 
因此 施 测 时 纸 笔 部 分 可 团体 进行 ,而 操作 部 分 则 必须 个 别 施 
行 。 与 DAT 相 比 ，GATB 纳入 了 DAT 所 没有 的 形状 知觉 测验 
及 几 种 运动 能 力 测验 ， 因 而 ，CATB 比较 注重 于 实际 操作 ， 而 
且 多 个 分 测验 更 倾向 于 速度 测验 而 非 能 力 测验 。 但 是 尽管 如 
此 ,在 DAT 和 GATB 中 对 应 的 因素 之 问 还 是 密切 相关 ， 如 言 
语 、 数 字 、 空 间 关系 、 文 书 等 因素 在 DAT 和 GATB 之 间 的 相 
关系 数 非常 显著 ， 其 值 在 0.57 ~ 0.74 之 间 。 

个 栖 完 成 GATB 的 12 个 分 测验 后 ， 可 得 9 个 原始 分 数 ， 
分 别针 对 于 上 述 9 种 能 力 因素 。 测 验 选 用 一 般 在 职 人 员 为 常 模 
团体 建立 常 模 ， 个体 在 测验 中 的 原始 分 数 根据 此 常 模 转 换 成 平 
均 数 为 100， 标 准 差 为 20 的 标准 分 数 ， 然 后 可 绘制 成 能 力 裔 
面 图 。 从 图 中 可 以 直观 地 大 到 个 体内 部 在 9 种 能 力 因素 上 所 表 
现 出 来 的 优 劣 倾向 ， 又 可 比较 和 判断 个 体 相对 于 一 般 在 职 人 员 
在 9 种 能 力 因 素 上 的 相对 水 平 ， 因 而 对 于 个 体 的 就 业 指 导 、 决 
策 以 及 人 事 部 门 的 人 员 甄 选 和 录用 具有 相当 高 的 辅助 价值 。 

由 于 不 同 的 能 力 因 素 在 不 同 的 职业 中 所 显示 出 来 的 重要 性 
不 同 ， 因 此 在 职业 辅导 或 人 员 喜 选 时 ， 除 了 解 个 人 在 各 方面 能 
力 上 的 优 劣 之 外 ， 还 必须 了 解 各 种 职业 最 需要 什么 样 的 能 力 ， 
以 及 在 所 需要 的 能 力 上 水 平 达 到 什么 程度 才能 胜任 相应 工作 ， 
这 样 才 能 更 准确 地 判断 某 个 人 是 否 适 合 某 种 职业 。 在 这 种 考虑 
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之 下 ，GATB 选用 了 若干 种 职业 ， 从 相应 职业 的 在 职 人 员 中 选 
取代 表 性 样本 作为 常 模 团体 ， 建 立 了 若干 个 个 别 职业 常 模 。 将 
个 人 的 9 种 能 力 因 素 标 准 分 与 某 一 个 别 职业 常 模 所 要 求 的 能 力 
因素 的 切割 分 数 相 比 ， 可 能 的 评价 为 高 、 中 、 低 三 种 : 被 评 为 
“高 "， 表 示 此 人 的 能 力 符 合 且 想 过 该 职业 的 合格 员工 ， 在 该 职 
业 中 成 功 的 可 能 性 很 大 ; 被 评 为 “中 ”， 表 示 此 人 的 能 力 接近 
该 职业 的 合格 员工 ， 可 以 胜任 该 职业 ; 被 评 为 “ 低 ”， 则 表示 
此 人 从 事 该 职业 的 成 功 可 能 性 较 小 ， 应 考虑 从 事 其 他 更 能 发 挥 
能 力 的 职业 。 

为 了 更 好 地 应 用 于 管理 和 选拔 工作 ， 美 国 职业 介绍 服务 机 
构 以 工作 分 析 为 基础 ， 把 各 种 职业 进行 分 类 ， 总 共 设 置 了 36 
个 职业 群 ， 并 建立 了 相应 的 常 模 ， 每 个 职业 群 常 模 均 规 定 了 自 
己 的 分 数 线 模 式 。 据 此 常 模 ， 可 以 判断 个 体 是 否 适合 从 事 某 一 
类 职业 ， 以 及 获得 成 功 的 可 能 性 有 和 多大。 分 数 比 较 和 解释 的 方 
法 与 个 别 职 业 常 模 类 似 。 

GATB 手册 提供 了 为 数 可 观 的 不 同 职业 工人 在 GATB 测 
验 结果 上 的 差异 的 数据 ， 以 及 不 同 分 测验 与 不 同 工 作 之 间 的 相 
关 数 据 。 这 些 数据 资料 为 GATB 的 效 标 关联 效 度 提供 了 证 据 。 

将 GATB 的 结果 应 用 于 实际 的 职业 指导 和 人 事 工作 时 ， 
间 样 应 避免 完全 地 和 单纯 地 依赖 此 结果 ， 因 为 它 只 是 必要 条 件 
而 非 充分 条 件 。 


第 二 节 ”特殊 能 力 测验 


能 力 倾向 测验 可 以 从 不 同 能 力 因素 上 来 评 佑 个体， 因而 被 
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广泛 应 用 于 专业 、 职 业 指 导 与 人 事 管理 工作 之 中 。 但 是 ， 它 们 
在 使 用 过 程 中 也 逐渐 显现 出 -一 些 弱 点 : 当 个 人 已 有 强烈 的 志 
愿 去 从 事 某 类 专业 或 职业 时 ， 他 希望 能 有 一 种 测验 可 以 针对 此 
类 专业 或 职业 所 需要 的 特殊 能 力 进 行 测量 ， 从 而 可 以 评估 自己 
将 来 在 此 类 专业 或 职业 领域 成 功 的 可 能 人 性 大 小 ， 并 据 此 调整 或 
确定 志愿 ; 当 某 人 事 部 门 需要 招收 特定 工作 岗位 的 工作 人 员 ， 
或 某 专业 学 校 需要 招收 学 生 ， 或 某 人 眼前 正 有 某 一 工作 或 某 一 
学 校 的 选择 机 会 ， 当 特定 人 员 与 特定 工作 或 学 校 之 间 意 向 性 很 
强 时 ， 无 论 从 个 人 角度 ， 还 是 从 校方 或 雇主 角度 来 考虑 ， 都 希 
望 能 有 一 种 适合 自己 的 专业 性 较 强 的 特殊 能 力 测 验 ， 并 且 ， 能 
根据 测验 结果 来 评估 与 判断 是 否 录取 某 人 或 是 否 选 择 某 工 作 
(或 学 校 )。 成 套 的 能 力 倾 向 测验 在 此 便 显得 有 些 累 蓉 。 虽 然 也 
有 人 主张 在 这 种 情况 下 可 以 不 对 被 试 施 行 整套 测验 ， 而 是 有 针 
对 性 地 选择 施 测 某 几 个 分 测验 ， 从 而 简化 测量 程度 并 提高 测量 
效率 。 

但 是 ， 这 样 的 化 法 并 不 值得 提倡 。 因 为 :一 方面 ， 包 含 在 
成 套 测 验 中 的 每 一 分 测验 尽管 目的 在 于 测量 各 种 能 力 因 素 ， 但 
由 于 时 间 的 限制， 每 个 分 测验 不 可 能 编 得 很 长 ， 所 包容 的 内 容 
也 不 可 能 很 多 ， 这 样 一 来 ， 其 题目 取样 便 受 到 了 相当 程度 的 限 
制 。 因 此 ， 将 每 个 分 测验 作为 单独 的 测验 来 使 用 便 会 显得 不 够 
充分 。 另 一 方面 ， 成 套 能 力 倾 向 测验 虽然 往往 包含 了 多 种 能 力 
因素 的 测量 ， 但 一 个 测验 不 可 能 涵盖 所 有 能 力 因 素 ， 其 所 制定 
的 职业 常 模 也 不 可 能 涵盖 所 有 职业 。 因 此 ， 对 于 某 些 专业 领域 
的 人 员 选 找 ， 能 力 倾向 油 验 中 车 无 针 对 相应 能 力 的 分 测验 ， 此 
时 便 无 法 提供 任何 帮助 。 

出 于 以 上 考虑 和 需要 ， 特 殊 能 力 测验 应 运 而 生 。 现 有 的 常 
用 的 特殊 能 力 测 验 一 般 针 对 于 一 种 特殊 能 力 所 包 含 的 各 方面 因 
素 进行 测量 ， 测 验 性 质 介 于 成 就 测验 和 能 力 倾 向 测验 之 间 ， 其 
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状 容 与 相应 的 专业 或 职业 训练 的 重点 是 一 致 的 ， 而 测量 目的 既 
想 了 解 个 体 在 此 专业 领域 的 既 有 水 平 ， 又 想 预 测 个 体 今后 在 此 
专业 领域 成 功 的 可 能 性 。 常 见 的 特殊 能 力 测验 主要 有 音乐 能 力 
测验 、 美 术 能 力 测验 和 机 械 能 力 测验 。 


一 、 音 乐 能 力 测 验 


当 我 们 涉及 音乐 和 美术 这 样 的 领域 时 ， 一 般 的 学 习 能 力 颁 
向 测验 便 显 得 有 些 不 合适 了 ， 它 们 对 这 些 学 科 的 成 绩 是 难以 预 
测 的 。 就 音乐 能 力 而 言 ， 它 包括 各 种 感觉 辨别 力 ， 如 音调 辨别 
力 、 音 量 辨别 力 、 音 程 长 短 的 辨别 力 等 ， 也 包括 对 音乐 题材 中 
较 复杂 的 音乐 关系 的 理解 ， 如 音程 关系 、 曲 调 类 型 和 音 的 构成 
等 ， 同 时 还 包括 关于 曲调 、 节 奏 、 格 调 、 强 弱 等 的 艺术 判断 
力 。 能 力 倾向 测验 基本 上 无 法 涉及 这 类 的 能 力 范围 。 爱 苟 毕 大 
学 的 西 肖 尔 (Carl Seashor) 及 其 同事 对 音乐 能 力 进行 了 开创 
性 研究 ， 结 果 产 生 了 最 早 的 音乐 能 力 测验 。 


《一 ) 西 肖 尔 音乐 才能 测验 

西 肖 尔 音 乐 才能 测验 (Seashor Measures of Musical Tal- 
ents) 是 一 组 最 充分 地 调查 音乐 才能 的 测验 ， 它 以 一 系列 音乐 
调式 或 音乐 符 作 为 刺激 材料 ; 主要 测定 以 下 一 些 简 单 的 感官 辩 
别 力 : 

(1) 音调 辨别 力 ， 判断 两 个 调子 哪 一 个 较 高 。 

(2) 音量 辨别 力 ; 判断 两 个 声音 哪 一 个 较 响 。 

(3) 时 间 音 程 状 别 力 : 判断 两 个 音程 娜 一 个 较 长 。 

《4) 节奏 判断 力 ， 判断 两 个 节奏 是 否 相 同 。 
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(5) 音色 判断 力 : 判断 两 个 音色 哪 一 种 较 和 悦耳。 

(6) 音调 记忆 力 ; 判断 两 首 曲调 是 否 相 同 。 

本 测验 适用 于 小 学 生 到 成 人 ， 共 需 1 小 时 左右 完成 。 测 验 
手册 中 有 明确 的 信和 度 分 析 ， 但 效 度 证 据 还 不 够 。 

效 度 问题 使 西 肖 尔 音乐 才能 测验 受到 批评 与 怀疑 ,， 并且， 
它 所 选择 的 刺激 材料 被 认为 远离 了 真正 的 音乐 题材 ， 因 而 引致 
的 争议 更 大 。 后 期 的 音乐 能 力 测 验 便 趋 向 于 采用 更 复杂 的 
内 容 。 


(二 ) 音乐 能 力 测验 图 

音乐 能 力 测验 图 (Mausical Aptitude Profile) 是 由 飞 登 
(E.Gordon) 1965 年 编制 而 成 的 。 它 以 真正 的 音乐 题材 为 材 
料 ， 包 括 250 个 原版 的 小 提琴 和 大 提 等 选段 。 

测验 首先 包括 若干 个 对 音乐 理解 力 的 测量 项 目 ， 要 求 被 试 
分 别 以 旋律 、 和 声 、 速 度 和 拍子 为 基础 来 比较 和 判断 两 小 段 音 
乐 之 间 相 异 或 是 相同 。 其 后 ,测验 提供 的 是 3 个 分 测验 : 

(1) TT 测验 一 一 音调 形象 (旋律 、 和 声 )。 在 该 测验 的 音 
乐 表 达 方 式 上 有 两 种 演奏 方法 ,让 被 试 判断 异同 。 

(2) R 测验 一 一 节奏 形象 (速度 、 节 拍 )。 演 奏 有 两 个 结 
尾 ， 亦 要 求 被 试 判断 异同 。 。” 、 

(3) S 测验 一 一 音乐 感受 〈 短 句 、 平 衡 、 风 格 等 )。 要 求 
被 试 判断 两 段 音 乐 哪 个 更 有 前 上 。 

本 测验 具有 相当 吸引 人 的 信和 度 资料 ， 每 个 分 测验 的 信和 度 均 
在 0.860 左右 ,合成 分 的 信和 度 在 0.90 以 上 。 测 验 的 效 度 也 有 一 
定 的 证 据 : 测验 结果 与 教师 评定 之 间 的 相关 在 0.64 ~ 0.97 之 
间 ; 飞 登 对 200 多 名 学 生 进 行为 期 三 年 的 追踪 研究 ， 发 现 测验 
成 绩 可 对 学 生 在 专业 音乐 训练 上 的 成 绩 作 出 较 好 的 预测 ， 并 且 
所 进行 的 音乐 训练 的 时 间 越 长 ， 这 个 测验 作出 的 预测 就 越 准 
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确 。 因 此 ， 该 测验 在 技术 上 比 西 肖 尔 测验 更 为 完善 。 
二 、 美 术 能 力 测验 


关于 美术 能 力 的 判断 标准 是 很 难 确定 的 ， 因 而 寻找 可 靠 的 
标准 并 据 此 编制 可 靠 的 用 以 测量 美术 能 力 的 测验 也 是 很 难 的 。 
不 过 ， 尽 管 如 此 ， 仍 有 许多 有 关 美 术 能 力 的 测验 产生 。 


(一) 梅 尔 美术 判断 力 测验 

梅 尔 美术 判断 力 测验 ( Meier Art Tests) 的 每 一 个 项 目 都 
由 两 幅 美 术 图 片 组 成 ， 一 幅 是 公认 的 杰作 ， 另 一 幅 是 在 某 些 方 
面 (平衡 、 比 例 、 明 暗 等 ) 对 此 杰作 稍 有 和 焉 曲 的 作品 。 测 验 指 
导语 中 简要 指出 了 两 幅 男 片 的 差异 ， 要 求 被 试 在 这 两 幅 片 中 选 
出 更 好 的 一 幅 。 

测验 分 半 信 和 度 从 0.70 ~ 0.84， 但 评分 者 信 度 不 高 。 在 测 
验 上 得 分 的 高 低 ， 表 明 被 试 对 于 美术 作品 的 鉴赏 能 力 ， 这 可 以 
说 是 美术 能 力 中 最 基本 的 部 分 ， 是 从 事 各 种 与 美术 有 关 的 学 习 
或 工作 必 备 的 ， 一 个 缺乏 审美 能 力 的 人 ， 最 多 只 能 成 为 一 个 普 
通 的 艺术 工 注 ， 永 远 不 可 能 成 为 一 个 真正 的 美术 家 。 当 然 ， 具 
有 很 高 审美 能 力 的 人 ， 也 不 -- 定 就 必然 成 为 一 个 好 的 美术 家 。 
因而 ， 本 测验 只 是 考察 美术 能 力 和 预测 美术 成 就 的 一 个 必要 条 
件 , 但 非 充分 条 件 。 


(二 ) 格 器 福 斯 图 案 判 断 测验 
格雷 福 斯 图 案 判 断 测验 (Graves Design Judgment Test) 
的 取材 不 再 是 名 家 杰作 ,而 只 是 一 些 二 维 或 三 维 的 抽象 图 案 ， 
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每 一 项 目 包括 2~3 个 同一 图 案 的 变 式 , 它们 在 整体 性 、 平衡 
性 和 对 称 性 等 方面 有 所 区 别 ， 要 求 被 试 判断 出 哪 一 图 案 最 好 。 

测验 分 半 信 度 为 0.80 ~ 0.90。 测 验 结果 可 表明 被 试 对 美 
术 一 般 的 基本 原理 的 认识 和 反应 ， 从 而 证 实 他 对 美学 知觉 和 判 
断 的 标准 。 该 测验 没有 提供 足够 的 效 度 证 据 。 


《三 ) 过 恩 羡 术 能 力 问卷 

答 恩 美术 能 力 问卷 (Horn Art Aptitude inventory) 由 两 部 
分 组 成 : 第 一 部 分 要 求 被 试 画 出 20 种 常见 的 物体 和 几何 图 形 ; 
第 二 部 分 要 求 被 试 在 长 方 框 内 给 定 的 圆 点 和 线条 基础 上 作画 。 

该 测验 是 操作 型 测验 ， 可 以 让 被 试 显示 一 般 美术 记忆 和 技 
巧 以 及 美术 想象 和 创造 力 。 不 过 测验 评分 的 主观 性 太 强 ， 多 少 
限制 了 测验 的 应 用 。 | 

美术 能 力 测验 一 般 可 以 成 功 地 将 美术 学 生 或 美术 工作 者 
其 他 人 员 区 别 开 来 。 对 美术 学 生 的 研究 表明 美术 能 力 测验 的 成 
绩 对 于 他 们 后 来 在 美术 学 校 所 取得 的 成 就 是 一 个 很 好 的 预测 。 
至 于 这 些 测 验 对 未 受过 美术 训练 的 学 生 能 起 多 大 作用 ， 仍 待 进 
一 步 研 究 。 


三 、 机 械 能 力 测验 


大 多 数 工业 职业 需要 一 定 的 机 械 能 力 ， 因 此 对 于 个 人 在 工 
业 职 业 方 面 的 可 能 成 就 的 预测 就 需要 机 械 能 力 测验 的 参与 。 机 
被 能 力 包 含 了 许多 成 分 ， 如 运动 能 力 、 空 间 知觉 能 力 、 机 械 推 
理 等 等 。 现 有 机 械 能 力 测验 往往 只 就 某 一 成 分 进行 测量 ,并且 
主要 集中 于 对 空间 关系 能 力 和 机 械 知 识 、 理 解 及 推理 能 力 这 样 
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(一 ) 空间 关系 测验 

明尼苏达 大 学 的 帕 特 森 〈D.G.Paterson) 及 其 同事 对 机 械 
能 力作 了 严格 的 分 析 、 并 编制 出 3 个 有 关 的 测验 : 

1. 明尼苏达 机 械 拼 合 测验 《Minnesota Mechanical Assem- 
bly Test) 

这 是 一 个 操作 测验 ， 要 求 被 试 拼 排 随 机 排放 的 祝 械 物体 ， 
主要 测量 动作 敏捷 性 和 空间 知觉 。 

2. 明尼苏达 空间 关系 测验 (Minnesota Spatial Relations 
Test) 

测验 材料 是 四 块 带 有 各 种 几何 形状 凹陷 的 板 ， 两 套 随 机 放 
置 的 具有 各 种 几何 形状 的 木 块 ， 要 求 被 试 尽快 将 木 块 放 入 相应 
几何 形状 的 板 中 。 测 验 主要 考察 被 试 对 空间 关系 的 知觉 速度 ， 
具有 较 高 移 信 和 度 和 一 定 的 效 度 。 | 

3. 盟 尼 苏 达 书 面 形式 拼 板 测验 (Minnesota Paper Form ~ 
board Tesi) 

测验 以 纸 笔 形 式 进行 : 采用 多 重 选择 题 ， 每 题 均 由 被 分 解 
开 来 的 几 个 几何 图 形 组 成 ,要求 被 试 从 备 选 答案 中 选 出 由 这 几 
个 几何 图 形 拼合 起 来 的 整体 图 形 。 该 测验 具有 较 高 的 信和 度 。 并 
且 在 预测 机 械 操 作 及 包装 检验 等 工业 职业 的 实际 成 就 上 显示 一 
定 的 价值 。 


(二 ) 机 械 理 解 能 力 测 验 

机 械 理解 能 力 是 指 理解 实际 生活 情境 中 的 机 械 原 理 的 能 
力 , 一 般 需 要 一 定 的 机 袜 知 识 。 本 耐 特 机 械 理 解 测验 (Ben- 
nett Mechanical Compredension Test) 是 对 此 能 力 进 行 测量 的 最 
常见 的 工具 之 一 。 
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本 耐 特 等 人 将 大 量 的 日 常生 活 情境 引入 测验 材料 ， 每 题 皆 
以 图 示 ， 图 旁 附 有 一 个 简短 的 问题 。 比 如 图 示 中 两 个 人 用 一 长 
条 木板 抬 一 重 物 ， 重 物 虹 一 人 近 而 距 另 一 人 远 ， 间 “哪个 人 负 
重 更 大 。 

由 于 在 机 械 能 力 上 存在 明显 的 性 别 差 异 ， 因 此 测验 根据 性 
别 分 别 建立 常 模 ， 被 试 在 测验 上 的 得 分 与 同性 别 的 常 模 进 行 比 
较 和 和 解释。 测验 具有 相当 高 的 信和 度 ， 并 且 ， 该 测验 结果 与 若干 
工业 职业 成 就 的 相关 研究 为 测验 提供 了 较 好 的 效 度 证 据 ， 基 
而 ， 此 测验 在 军队 和 企业 里 以 及 一 些 专 业 学 校 (如 工程 学 校 ) 
里 都 得 到 了 广泛 的 应 用 。 


第 三 节 ”创造 力 测 验 


文明 的 历史 ， 基 本 上 土 力 是 人 类 创造 能 力 的 记载 。 创 造 力 是 
推动 人 类 社会 发 展 的 原动力 ， 作 为 一 种 特殊 的 而 又 不 容 忽视 的 
能 力 因 素 ， 创 造 力 受到 了 心理 学 家 们 的 注意 ， 关 于 创造 力 的 探 
讨 和 研究 在 近 几 十 年 来 也 成 为 心理 学 的 热门 话题 之 一 。 


一 、 发 散 思 维 研究 与 创造 力 测验 


创造 力 研究 被 纳入 科学 研究 轨道 之 后 ， 在 很 长 一 段 时 间 ， 
关于 创造 力 的 探讨 停留 在 思辩 阶段 ， 高 尔 顿 将 之 归结 于 遗传 ， 
以 费 洛 伊 德 为 首 的 心理 分 析 掌 派 将 之 归结 于 无 意识 过 程 ， 格 式 
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塔 学 派 又 将 之 归结 于 顿悟 ， 等 等 。 由 于 研究 方法 和 工具 的 不 
足 ， 和 研究 者 们 各 执 己 见 ， 意 见 纷 绒 。1950 年 ， 吉 尔 福特 在 美 
国 心理 学 年 会 上 作 了 题 为 《创造 性 》 的 著名 演讲 ， 此 后 ， 许 多 
创造 力 研 究 者 皆 遵 循 他 的 思路 继续 研究 。 

吉尔 福特 在 智力 结构 的 研究 中 引 和 人 因素 分 析 方 法 ， 由 些 提 
出 了 他 的 智力 三 维 结构 模型 .( 见 上 章 )。 在 此 模型 中 ， 他 发 现 
智力 操作 中 存在 聚合 与 发 散 两 种 不 同类 型 的 思维 ;聚合 思维 是 
指 利用 已 有 的 知识 经 验 或 传统 方法 来 解决 问题 的 一 种 有 方向 、 
有 范围 、 有 条 理 、 有 组 织 的 思维 方式 ; 而 发 散 思 维 则 是 既 无 一 
定 方 向 又 无 一 定 范围 的 由 已 知 探索 未 知 的 思维 方式 。 

吉尔 福特 还 认为 发 散 思 维 在 行为 上 主要 表现 出 3 种 特性 : 

@@ 流 畅 性 : 面 对 智力 任务 能 在 短 时 间 内 作出 迅速 而 众多 的 
反应 。 
@ 变 通 性 : 思维 灵活 多 变 ， 触 类 旁 通 ， 不 受 传统 思维 或 心 
理 定 势 的 影响 ， 能 多 方位 地 思考 与 解决 问题 。 

全 独特 人 性 : 对 事物 能 表现 出 不 同 寻常 的 新 颖 见解 。 这 3 种 
特性 相互 联系 ， 变 通 性 建立 在 流畅 性 基础 之 上 ， 独 特性 又 建立 
在 变通 性 与 流畅 性 的 基础 之 上 ， 因 为 只 有 反应 数量 众多 ， 才 有 
可 能 反应 角度 多 样 化 ,进而 才 有 可 能 出 现 新 视角 ， 新 观点 。 

吉尔 福特 将 发 散 思维 的 特性 视 为 人 的 创造 性 活动 的 特性 ， 
并 因此 将 创造 力 定义 为 发 散 思维 的 能 力 ， 即 对 规定 的 刺激 产生 
大 量 的 、 变 化 多 端 而 又 独特 的 反应 的 能 力 。 他 进而 指出 现 有 
的 传统 的 智力 测验 一 般 注 重 于 京 合 思维 的 测量 ,测验 项 目 通 常 
要 求 被 试 从 给 定 的 若干 备 选 答案 中 选 出 一 个 ,评分 则 以 固定 的 
正确 答案 为 标准 ， 并 不 鼓励 被 坛 作出 多 样 化 的 与 众 不 同 的 反 
应 ， 因 此， 被 试 的 创造 力 在 智力 测验 中 无 法 得 到 充分 的 反映 。 
然而 ， 随 着 创造 力 研究 的 深入 以 及 社会 发 展 对 于 创造 性 人 才 的 
坑 求 月 益 增加 .关于 创造 力 的 测量 已 经 逐渐 具备 了 理论 上 的 可 
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能 性 和 实际 上 的 必要 性 ， 因 而 势 在 必 行 。 

吉尔 福特 关于 智力 测验 注重 聚合 思维 而 忽视 发 散 思维 的 评 
论 得 到 很 多 学 者 的 共鸣 ， 并 且 ， 他 视 发 散 思维 为 创造 力 之 核心 
的 观点 也 为 很 多 研究 者 所 接受 。 因 此 ， 目 前 常见 的 、 有 一 定 影 
响 力 的 创造 力 测验 基本 上 是 沿 律 吉尔 福特 的 理论 观点 编制 而 成 的 。 


二 、 吉 尔 福特 发 散 思 维 测验 


吉尔 福特 在 长 期 的 研究 中 设计 出 大 量 的 测验 对 发 散 思 维 进 
行 测量 。 这 些 测验 将 他 关于 创造 力 的 定义 和 他 关于 智力 结构 的 
徊 述 结合 起 来 : 视 创 造 力 为 发 散 思维 能 力 ， 发 散 思维 又 是 智力 
三 维 结构 中 操作 维度 所 包含 的 五 个 因素 之 一 ; 而 作为 操作 因 
素 ， 发 散 思 维 又 可 以 与 智力 结构 中 的 5 种 内 容 因素 ， 以 及 6 种 
结果 因素 之 间 组 合 出 30 种 心理 能 力 因 素 ， 如 图 13.1 所 示 : 
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图 13.1 吉尔 福特 发 散 忆 维 测验 的 理论 模型 


图 中 上 半 部 分 即 智力 三 维 结构 模型 ， 下 半 部 分 则 将 发 散 思 
维 部 分 从 模型 中 抽取 出 来 ， 并 且 已 标明 与 发 散 思 维 相 关联 的 
30 种 心理 能 力 因 素 及 其 位 置 ( 图 中 各 字 每 符号 所 代表 的 含义 
请 参阅 上 章 )。 

吉尔 福特 力图 选择 合适 的 方法 来 测量 图 13.1 中 所 示 的 30 
种 能 力 因 素 ， 但 最 后 只 编制 出 14 个 分 测验 ， 针 对 其 中 11 种 能 
力 因素 进行 测量 。 

(1) 词语 流畅 : 写 出 包含 某 一 指定 字母 的 词 ， 测 量 DSU 
因素 。 

(2) 观念 流畅 : 列举 属于 茶 一 种 类 的 事物 的 名 称 ， 测 量 
DMU 因素 。 

(3) 联想 流畅 : 列举 近义词 ,测量 DMR 因素 。 

(4) 表达 流 畅 : 给 定 4 个 字母 ， 要 求 写 出 所 有 可 能 的 由 4 
个 以 给 定 字母 开头 的 词组 成 的 句子 ， 测 量 DMS 因素 

《5) 多 项 用 途 : 列举 指定 物体 的 各 种 不 同 寻 常 的 用 处 ， 测 
量 DMC 因素 。 

(6) 解释 比喻 : 用 不 同方 式 完成 一 个 比喻 句 ， 测 量 DMS 
因素 ， 


第 十 三 章 ”能 力 测验 (下) "329 ， 


(7) 效用 淡 验 : 列举 某 物 的 所 有 可 能 用 途 ， 测量 DMU 、 
DMC 两 因素 。 

{8) 故事 命题 : 写 出 一 个 短 故 事情 节 的 所 有 合适 标题 ， 测 
量 DMU、DMT 两 种 因素 。 

{9) 推 想 结 果 : 列举 一 个 假设 事件 的 所 有 可 能 结果 ， 测 量 
GMU、DMT 两 因素 。 

(10) 职业 象征 : 列举 一 个 给 定 的 符号 或 物体 所 象征 的 可 
能 职业 ,测量 PMi 因素 。 

《11) 图 形 组 合 : 仅仅 使 用 一 组 给 定 的 孔 何 图 形 ， 画 出 指 
定 的 物品 ， 测 量 DFS 因素 。 

(12) 绘图: 以 给 定 的 简单 图 形 为 基础 ， 绘 出 尽 可 能 多 的 
可 辨认 物体 的 草图 ， 测量 DFU 因素 。 

(13) 火柴 问题 ， 移动 指定 数量 的 火柴 ， 形 成 特定 数目 的 
方形 或 三 角形 ， 测 量 DFT 因素 。 

(14) 装饰 : 以 尽 可 能 多 的 方法 来 修饰 一 般 物体 的 轮廓 图 ， 
-测量 DFI 因素 。 

测验 一 般 适 用 于 初中 水 平 以 上 的 人 ， 从 思维 的 流畅 性 、 变 
通 性 和 独特 性 3 方面 进行 评分 ,分 半 信 度 在 0.60 ~0.90 之 间 ， 
测验 手册 中 报告 了 每 个 测验 的 因素 效 度 ， 但 缺乏 效 标 关联 效 度 
的 数据 资料 。 


三 、 托 伦 斯 创造 性 思维 测验 


托 伦 斯 创造 性 思维 测验 (Torrance Test of Creative think- 
ing) 是 在 吉尔 福特 的 智力 理论 及 其 发 散 思 维 测 验 基础 上 编制 
而 成 的 、 目 的 是 从 流畅 性 、 变 通 性 、 独 特性 和 精确 性 4 个 方 而 
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评估 个 体 的 创造 性 思维 能 力 。 测 验 共 分 两 套 ， 每 套 都 有 两 个 复 本 。 


一》 言语 的 创造 性 思维 测验 

这 一 套 测 验 包括 7 项 活动 ; 

(1) 发 问 : 呈现 一 张 图 画 ， 要 求 列举 为 了 解 图 中 之 事 而 需 
要 询问 的 所 有 问题 。 

(2) 猜测 原因 : 列举 图 中 之 事 发 生 的 所 有 可 能 原因 。 

(3) 猜测 结果 ， 列举 图 中 之 事 的 所 有 可 能 后 果 。 

(4) 产品 改进 : 对 绘 定 玩具 提出 改进 意见 。 

(5) 非凡 用 途 : 列举 某 物 不 同 寻常 的 可 能 用 途 。 

(6) 不 平凡 的 疑问 : 对 活动 5 中 所 示 物 体 担 出 不 同 寻常 的 
疑问 。 

(7) 推 想 结果 : 列举 一 种 假想 事件 的 所 有 可 能 后 果 。 


(二 ) 图 形 的 创造 性 思维 测验 

此 大 ,测验 包括 3 项 活动 : 

(1) 建构 图 画 : 以 明亮 的 彩色 曲线 为 起 点 ， 建 构 一 - 辐 故 
事 画 。 

(2) 完成 图 画 : 利用 所 给 的 少量 不 规则 的 线条 画 出 物体 的 
略图 。 ， 

(3) 平行 线条 绘图 : 利用 成 对 的 平行 线条 绘 出 尽 可 能 多 的 
不 同 的 图 形 〈 复 本 中 以 圆 代替 平行 线 )。 

测验 结果 得 到 流畅 性 、 变 通 性 、 独 特性 和 精确 性 4 个 分 
数 。 在 判断 一 个 人 的 创造 性 思维 能 力 时 ， 必 须 4 个 分 数 综合 起 
来 分 析 ， 而 不 能 根据 某 一 孤立 的 分 数 进行 推断 。 测 验 的 分 半 信 
度 和 复 本 信和 度 在 0.60 ~0.93 之 间 ， 但 没有 充分 的 效 度 证 据 。 

创造 力 测验 的 产生 使 得 创造 力 研 究 更 加 深入 ,但 也 带 来 了 
更 大 的 争议 。 一 方面 是 理论 上 的 争议 : 究竟 发 散 思维 是 否 就 是 
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创造 力 的 核心 ? 有些 研究 者 认为 聚合 思维 对 创造 性 活动 同样 重 
要 ， 一 个 真正 具有 创造 力 的 人 ， 不 仅 要 有 变通 而 独特 的 思维 ， 
而 且 也 希 要 有 效 地 选择 、 评 价 与 综合 的 思维 能 力 ， 这 样 才能 将 
他 的 奇遇 保 想 与 现实 情境 结合 起 来 作出 成 就 ， 否 则 空想 永远 是 
空想 。 也 有 的 人 认为 应 该 将 个 性 因素 考虑 到 创造 力 中 去 ， 一 个 
高 创造 力 的 人 应 该 具有 好 奇 心 、 独 立 自主 性 、 自 信心 和 冒险 精 
神 等 个 性 特征 ， 创 造 力 测验 应 从 这 一 角度 人 手 。 总 之 ， 创 造 力 
包罗 万 象 ， 应 从 多 维度 进行 系统 而 综合 的 研究 与 评估 ， 单 从 发 
散 思维 角度 来 测量 显然 是 不 够 的 。 

男 一 方面 是 创造 力 测验 本 身 的 一 些 弱点 限制 了 它们 的 应 
用 : QD 创造 力 测验 的 评分 较为 复杂 ， 虽 然 测 验 手册 上 有 详细 的 
评分 准则 ， 但 是 主观 性 依然 很 强 ， 评 分 者 之 间 的 一 致 性 程度 较 
低 ， 尤 其 是 在 对 被 试 答案 的 独特 性 评分 上 更 是 见仁见智 ， 难 以 
统一 。@@ 测 验 的 效 度 也 还 存在 怀疑 。 目 前 常见 的 大 多 数 创造 力 
测验 缺乏 足够 的 效 度 和 证据， 因而， 这 些 测验 在 实际 的 创造 性 成 
就 的 预测 上 究竟 有 多 大 效用 ， 目 前 依然 值得 探讨 。 

总 之 ,创造 力 测验 乃至 其 理论 依据 还 处 于 探索 阶段 ， 其 在 
实际 预测 的 可 车 性 与 有 效 性 上 都 有 一 定 的 局 限 性 ， 因 而 目前 这 
些 测验 仍 被 视 为 研究 的 工具 ， 而 不 能 被 施用 于 实际 预测 之 中 。 


练习 与 思考 


1. 能 力 倾 向 测验 与 智力 测验 、 成 就 测验 之 间 有 何不 同 ? 

2. 能 力 倾 向 测验 与 特殊 能 力 测验 在 应 用 上 有 何 区 别 ? 

3. 现在 流行 的 创造 力 测验 依据 的 理论 基础 是 什么 ? 

4 . 试 析 社 会 的 发 展 与 需要 在 能 力 测验 的 产生 与 发 展 中 的 
影响 。 

5 . 试 析 创 造 力 的 实质 与 表现 - 
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第 十 四 章 ”人格 测量 


本 章 提 要 : 

会 人 格 与 人 格 测量 

全 人 格 测量 的 真实 性 问题 
傅 自 陈 量 表 的 编制 及 其 特点 
铺 几 种 主要 人 格 量 表 的 使 用 
便 投 射 测验 及 其 理论 基础 
例 罗 夏 克 码 迹 测 验 简介 

全 主题 统 觉 测验 简介 
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大 格 测 量 是 心理 测量 的 一 个 主要 组 成 部 分 ， 它 对 于 在 较 短 
的 时 间 内 较为 全 面 准 确 地 了 解 一 个 人 的 人 格 特征 ， 对 于 因 材 施 
教 ， 对 于 心理 异常 的 诊断 ， 对 于 人 员 的 选拔 与 任用 都 具有 重要 
的 参考 意义 。 本 章 首先 讨论 人 格 测量 的 一 般 问 题 ， 然 后 分 别 介 
绍 主 要 的 人 格 测量 工具 一 一 自 陈 测验 和 投射 测验 ， 以 及 它们 的 
理论 基础 和 使 用 方法 。 


第 一 节 人 格 测量 的 一 般 问 题 


人 格 (personality》 是 一 个 具有 多 重 含义 的 概念 ， 在 不 同 
的 学 科 有 着 不 同 的 意义 ， 用 在 不 同 的 场合 表达 不 同 的 意思 。 哲 
学 上 的 人 格 通 常 指 人 的 本 质 属性 ， 即 人 与 动物 所 区 别 的 那些 方 
面 。 有 的 哲学 家 强调 人 的 理性 ， 有 的 哲学 家 强调 人 的 自我 意 
识 ， 有 的 哲学 家 又 强调 人 的 理想 品质 。 伦 理学 上 的 人 格 是 指 人 
的 优秀 品质 和 善良 品德 ， 类 似 于 通常 所 说 的 道德 品质 。 人 格 在 
法 学 上 又 是 指 人 的 权利 和 尊严 。 而 在 社会 学 上 却 指 一 个 人 在 社 
会 舞台 上 所 扮演 的 角色 。 心 理学 家 对 人 格 的 心理 学 含义 尽管 存 
在 众多 不 同 的 看 法 ， 但 在 通常 意义 上 是 指 一 个 人 相对 稳定 的 心 
理 特 征 和 行为 倾向 。 在 这 种 意义 上 说 ， 人 格 就 是 中 国人 通常 所 
理解 的 性 格 。 正 因为 如 此 ， 有 的 研究 者 为 了 避免 引起 理解 上 的 
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混乱 ， 主 张 将 心理 学 上 的 personality 翻译 成 “人 性格” 名 。 

西方 心理 学 家 对 于 人 格 的 本 质 持 有 不 同 的 认识 ， 对 人 格 的 
研究 角度 不 相同 ， 因 此 给 人 格 一 词 所 下 的 定义 也 就 有 区 别 。 对 
不 同人 格 定义 的 详细 讨论 是 普通 心理 学 尤其 是 人 格 心理 学 的 任 
务 ， 因 此 不 在 这 里 详 述 。 这 里 需要 说 明 的 是 ， 各 种 人 格 定义 并 
不 是 水 火 不 容 的 。 其 中 ， 有 的 是 因 研 究 的 角度 不 同 引 起 概念 上 
的 分 歧 ， 实 际 上 是 可 以 互补 的 ; 有 的 可 能 仅仅 是 措 词 上 的 区 
别 ， 内 容 大 致 相同 。 

我 们 认为 ， 现 代 西 方 心理 学 家 对 人 格 本 质 的 理解 至 少 在 4 
个 方面 是 一 致 的 或 基本 一 致 的 。 第 一 ， 绝 大 多 数 心 理学 家 都 强 
调 或 事实 上 承认 人 人格 的 整体 性 。 人 格 虽然 可 能 表现 为 各 种 不 同 
的 具体 形式 ， 但 各 种 心理 成 分 彼此 交织 ， 互 相 结 合 ， 组 成 一 个 
整体 。 第 二 ， 所 有 心理 学 家 都 承认 人 格 的 独特 性 ， 即 承认 没有 
两 个 人 的 人 格 是 完全 相同 的 。 第 三 ， 绝 大 多 数 心理 学 家 都 承认 
人 格 对 个人 行为 的 调节 功能 ， 即 认为 人 的 行为 至 少 部 分 地 决定 
于 行为 者 的 人 格 特征 。 第 四 ， 所 有 的 心理 学 家 都 主张 人 格 的 相 
对 稳定 性 ， 即 认为 人 格 对 行为 的 调节 功能 具有 跨 时 间 和 跨 情 境 
的 特征 。 因 此 ， 一 个 人 格 定义 无 论 用 什么 样 的 词语 表述 ， 只 要 
包含 了 上 述 4 方面 的 内 容 ， 就 抓 住 了 人 格 的 实质 。 根 据 这 一 认 
识 我 们 把 人 格 (或 性 格 ) 理解 为 个 人 在 与 环境 的 相互 作用 过 
程 中 形成 的 相对 稳定 的 心理 特质 和 行为 倾向 的 整体 组 织 ， 它 决 
定 郑 个 人 行为 的 独特 性 。 这 个 定义 并 不 意味 着 完善 ， 但 它 包含 
了 人 格 的 主要 性 质 ， 也 容易 理解 。 

人 格 测量 就 是 通过 一 定 的 方法 ， 对 在 人 的 行为 中 起 稳定 的 
调节 作用 的 心理 特质 和 行为 倾向 进行 定量 分 析 ， 以 便 进 一 步 于 
测 个 人 未 来 的 行为 。 在 心理 与 教育 测量 史上 ， 首 先 提倡 用 科学 


(DD 沙 艇 英 、 张 妖 等 : 《中 国人 性 履 研 究 的 理论 与 方法 初探 ). 《云南 师范 大 学 
学 报 》、1993 年 第 3 期 . 
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方法 测量 人 格 的 是 英国 学 者 高 尔 屯 。 早 在 1884 年 ， 他 在 《 品 
格 的 测量 》 一 文中 就 提出 ; 构成 我 们 行为 的 品格 是 一 种 明确 的 
东西 ， 所 以 应 该 加 以 测量 。 他 认为 通过 记录 心律 和 脉 律 的 变化 
可 以 测量 人 的 情绪 ， 通 过 观察 社会 情境 中 人 的 活动 可 以 评估 人 
的 性 情 、 路 气 等 特征 。 他 还 编制 了 一 个 人 格 的 评定 量 表 ， 可 以 
说 是 对 人 格 测 量 技术 的 初步 尝试 。 

1892 年 ， 克 雷 普 林 将 联想 测验 用 于 临床 诊断 。 其 基本 作 
法 是 给 被 试 一 些 经 过 专门 选择 的 词 作为 刺激 词 ， 要 求 受 测 者 在 
听 到 或 看 到 刺激 词 后 说 出 他 最 先 想 到 的 词 〈《 反 应 词 )。 然 后 ， 
通过 分 析 受 测 者 的 反应 词 的 内 容 来 判断 受 测 者 的 人 格 特征 。 这 
种 方法 后 来 被 广泛 地 运用 于 人 格 测验 项 目的 编制 。 

1919 年 ， 美国 武 德 沃 斯 发 表 了 第 一 个 自 陈 人 格 量 表 一 一 
个 人 资料 调查 表 ，, 这 开 了 人 和 格 间 卷 测量 之 先河 。 

1920 年 ， 罗 夏 克 墨迹 测验 问 氨 ， 投 射 测验 由 此 诞生 。 

目前 ， 用 于 人 格 测量 的 测验 多 达 数 百 种 ， 从 编制 测验 的 方 
法 和 测量 的 程序 来 看 ， 人 格 测量 技术 的 主要 种 类 有 自 陈 问卷 
法 、 投 射 法 、 评 定 法 、 情 境 法 、 行 为 观察 法 、 晤 谈 法 等 。 


二 、 人 格 测量 的 真实 性 问题 


相对 于 智力 测量 来 说 ， 人 格 测量 的 信和 度 和 效 度 更 低 一 些 ， 
这 就 使 得 人 们 有 理由 提出 人 税 测 量 的 真实 性 问题 。 而 影响 人 格 
测量 的 真实 性 的 因素 除了 编写 测验 项 目的 技术 外 ， 受 测 者 是 否 
真实 地 回答 测验 所 提出 的 各 种 问题 也 是 一 个 重要 因素 。 运 用 自 
陈 问卷 测量 人 的 人 格 特 征 时 ， 通 常 是 要 求 受 测 者 针对 所 提 的 问 
题 在 “是 ”和 “ 否 ” 两 个 备 选 选项 之 间 选 择 一 个 符合 他 实际 情 
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况 的 选项 。 在 这 种 情况 下 ， 受 测 者 员 然 清楚 他 应 当选 择 “ 是 ” 
或 “ 否 ”， 但 由 于 人 格 结构 中 的 一 些 特质 具有 了 明显 的 社会 评价 
色彩 ， 受 测 者 为 了 获得 较 高 的 社会 评价 ， 或 不 愿意 让 其 他 人 了 
解 自己 的 真实 的 人 格 特征 ， 完 全 可 能 选择 一 个 与 自己 实际 情况 
相反 的 选项 ， 这 是 其 一 。 其 二 ， 有 的 受 测 者 在 某 些 项 目 上 可 能 
不 太 清楚 哪个 选项 更 符合 自己 的 实际 情况 ， 所 以 在 拿 不 准 的 情 
况 下 ， 常 常 随便 选择 一 个 选项 。 其 三 ， 有 的 被 试 在 无 意识 中 就 
有 一 种 防卫 倾向 ， 所 以 不 知 不 觉 地 选择 了 与 自己 的 实际 情况 不 
符合 的 选项 。 最 后 ， 由 于 目前 流行 的 人 格 问卷 所 提供 的 备 选 选 
项 太 少 (通常 只 是 “是 ”与 “ 否 ” 两 种 )， 受 测 者 可 能 感到 任 
何 一 个 选项 都 不 太 符 合 自己 的 实际 情况 。 在 这 种 情况 下 ， 受 测 
者 要 么 两 个 选项 都 选 ， 要么 两 个 选项 都 不 选 ， 或 者 不 加 思索 任 
意 选 择 其 中 的 一 个 。 有 的 测验 的 编制 者 (如 卡特 尔 ) 意识 到 了 
这 个 问题 ， 于 是 在 两 个 极端 的 选项 之 间 插 入 一 个 折 中 人 性 选项 
(如 “不 一 定 ”"、“ 介 于 “是 ”与 “和 否 ?之 间 ”), 但 实际 上 ， 受 
测 者 在 一 个 具体 的 问题 上 很 少 有 这 种 不 偏 不 倚 的 中 间 情 况 。 

为 了 防止 受 测 者 回答 问题 时 有 意识 或 无 意识 的 防卫 性 反 
应 ， 有 的 问卷 插入 了 一 个 说 谎 量 表 ， 假 如 受 测 者 在 该 量 表 上 的 
得 分 过 高 ， 则 说 明 受 测 者 没有 真实 回答 ， 所 以 其 它 方面 的 分 数 
也 就 不 能 作为 评价 他 的 人 格 特征 的 依据 。 在 《明尼苏达 多 项 人 
格调 查 表 》 和 《 艾 森 克 人 格 问卷 》 中 就 包含 了 这 种 说 谎 量 表 。 
但 这 只 能 在 一 定 程度 上 解决 测量 的 真实 性 问题 ， 假 如 多 数 受 测 
者 的 说 谎 分 数 都 高 ， 测 验 就 没有 多 大 意义 。 当 然 ， 在 实际 测量 
中 这 种 情况 很 少 出 现 。 

防止 人 格 测量 不 真实 的 另 一 个 办 法 是 不 用 自 陈 问卷 法 ， 而 
改 用 投射 测验 。 投 射 测验 的 一 个 优点 是 可 以 让 受 测 者 在 不 知 不 
觉 中 将 他 的 无 意识 心理 投射 到 他 对 测验 项 目的 反应 之 中 。 但 目 
前 的 投射 测验 结果 很 难 做 到 景 化 ， 对 测验 结果 的 解释 是 施 测 者 
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的 主观 看 法 ， 不 同 的 施 测 者 对 同一 个 测验 结果 的 解释 常常 不 完 
全 相同 。 因 此 ， 假 如 对 测验 结果 给 予 不 同 的 解释 ， 那 么 ， 尽 管 
测验 结果 本 身 是 真实 的 ， 也 难以 说 明 整 个 测量 工作 的 真实 性 。 

当然 ， 人 格 测量 中 存在 的 上 述 难以 保证 真实 性 的 问题 并 不 
否定 人 格 测量 在 一 定 程度 上 的 科学 性 ， 这 只 是 一 个 进一步 改进 
和 完善 的 问题 。 在 人 格 测量 中 尽管 存在 着 一 定 的 难度 和 复杂 
性 ， 但 经 过 将 近 100 年 的 探索 和 发 展 ， 已 经 初步 形成 了 一 套 比 
较 科 学 的 人 格 测量 方法 和 技术 ,并 在 实际 应 用 领域 发 挥 着 越 来 
越 重要 的 作用 。 


第 二 节 ” 自 陈 量 表 


自 陈 人 格 测量 就 是 根据 要 测量 的 人 格 特质 ， 编 制 许多 有 关 
的 问题 ， 要 求 受 测 者 根据 自己 的 实际 情况 逐一 回答 这 些 问题 ， 
然后 根据 受 测 者 的 管 案 ， 去 衡量 受 测 者 在 这 种 人 格 特质 上 表现 
的 程度 。 为 完成 自 陈 人 格 测量 而 编制 的 测量 工具 叫 自 陈 量 表 或 
自 陈 问卷 。 自 陈 重 表 的 项 目 形 式 一 般 采 用 是 非 式 或 选择 式 ， 它 
的 计 分 规则 比较 客观 ， 施 测 手续 比较 简便 ， 测 量 分 数 容易 解 
释 ， 因 此 ， 是 人 格 测量 中 应 用 最 广 的 一 种 测验 。 
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自 陈 量 表 的 编制 及 其 特点 


《一 ) 自 陈 量 表 的 编制 
所 谓 “ 自 陈 ”就 是 自我 陈述 ， 即 让 受 测 者 个 人 提供 关于 自 
已 人格 特征 的 报告 。 由 于 纯粹 主观 的 自我 报告 对 有 关 的 变量 难 
以 控制 且 不 易 获 得 客观 的 数 瘟 化 的 评价 ， 因 此 自 陈 法 多 采用 客 
观测 验 的 形式 ， 也 就 是 测验 的 编制 者 预先 拟定 一 系列 陈述 句 或 
问题 ， 每 个 陈述 句 或 问题 描述 一 种 行为 特征 。 若 干 个 描述 行为 
特征 的 陈述 句 或 问题 组 成 共同 测量 一 种 人 格 特质 的 量 表 。 同 
时 ， 在 每 一 个 陈述 名 或 问题 之 下 提供 两 个 或 两 个 以 上 的 选项 ， 
供 受 测 者 根据 自己 的 实际 情况 选择 。 
编制 自 陈 量 表 的 基本 假设 是 只 有 受 测 者 最 了 解 自己 的 人 格 
特征 。 因 为 个 人 随时 随地 都 在 观察 自己 的 行为 ， 而 他 人 不 可 能 
了 解 自己 行为 的 所 有 方面 。 
编制 自 陈 人 格 量 表 的 第 一 项 任务 是 确定 所 要 测量 的 人 格 特 
质 ， 并 明确 给 出 该 特质 的 操作 性 定义 ， 然 后 围绕 着 该 特质 选择 
能 够 表现 该 特质 的 行为 情境 和 反应 。 具 体 的 编 题 方法 有 以 下 几 
种 : 
(1) 是 否 式 : 提供 一 个 陈述 句 或 问 句 ， 并 列 出 “是 ”和 
“ 否 ”两 种 选项 ， 要 求 受 测 者 选择 其 中 的 一 个 选项 。 例 如 ， 
我 喜欢 上 街 游玩 。 是 口 ” 否 口 
你 有 许多 业余 爱好 吗 ? 是 口 ” 否 口 
(2) 二 择 一 式 ; 提供 两 个 意思 相反 的 陈述 名 《A，B)， 要 
求 受 测 者 选择 其 中 符合 自己 实际 情况 的 一 个 。 例 如 : 
A. 我 常 批评 那些 有 权威 和 有 地 位 的 人 ， 口 
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B. 在 长 辈 或 上 级 面前 ， 我 总 是 感到 胆 侍 。 口 
(3) 是 否 折 中 式 : 提供 一 个 陈述 句 或 癌 句 ， 并 列 出 “是 ”、 
“ 否 ” 和 “不 一 定 ”( 或 “ 介 于 是 与 否 之 间 ”) 三 种 选项 ， 要 求 
受 测 者 选择 其 中 的 一 个 选项 。 例 如 ， 
我 善于 控制 自己 的 表情 ; A. 是 的 B. 介 于 A 与 C 
之 间 CC. 不 是 的 
(4) 文字 等 级 式 : 提供 一 个 问 句 ， 同 时 列 出 几 个 (通常 是 
五 个 ) 程度 不 等 的 选项 ， 供 受 测 者 选择 。 例 如 ; 
你 对 自己 的 工作 满意 吗 ? 
非常 满意 口 ”比较 满意 口 ”无 所 谓 口 不 大 满意 口 
极 不 满意 口 
(5) 数字 等 级 式 : 实际 上 是 文字 等 级 式 的 变 式 ， 只 不 过 是 
将 文字 式 选 项 改 为 数字 式 选 项 。 例如 ， 
你 对 自己 的 工作 满意 吗 ? 
非常 满意 一 一 非常 不 满意 
12345 
如 前 所 述 ， 在 运用 自 陈 量 表 测量 人 的 人 格 特质 时 ， 受 测 者 
可 能 有 意 无 意 地 选择 不 符合 自己 实际 情况 的 选项 。 为 了 尽 可 能 
防止 这 种 情况 的 发 生 ， 在 编写 测验 项 目 时 ， 应 当 注 意 : 外 尽 可 
能 回避 带 有 明显 的 社会 评价 色彩 的 问题 ， 代 之 以 中 性 的 陈述 。 
例如 ， 我 们 如 要 测量 人 的 工作 资 任 感 ， 可 以 编写 诸如 “对 于 生 
活 中 的 大 多 数 事 情 ， 我 都 要 做 得 妥 贴 才能 放下 心 来 ”的 陈述 ， 
而 不 要 直接 了 当地 编写 成 “只 要 是 领导 安排 的 工作 ， 我 都 能 保 
证 认真 按时 地 做 好 ”。 因 为 ， 后 者 具有 明显 暗示 和 社会 评价 的 
色彩 。@@ 对 于 量 表 中 必须 涉及 的 个 人 私生活 问题 ， 应 当 采 用 适 
当 隐 蔽 的 措 僚 予以 表述 。 例 如 ， 可 以 编写 诸如 “事实 上 ,许多 
人 在 内 心中 都 怀 有 一 些 不 可 告 人 的 想法 ”， 而 不 变 编 写成 “你 
的 内 心中 有 一 些 不 可 告 人 的 想法 吗 "。 尤 其 是 当 涉 及 个 人 的 人 性 
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问题 时 ， 所 编写 的 项 目 更 应 当 微 一 些 技术 上 的 处 理 ， 以 防止 引 
起 受 测 者 的 反感 而 作出 虚假 的 回答 。@ 所 提供 的 选项 最 好 排列 
成 若干 个 等 级 ， 以 便 受 测 者 选择 更 接近 他 实际 情况 的 答案 。 


(二 ) 自 陈 量 表 的 特点 

(1) 自 陈 量 表 的 题 量 较 大 ， 多 数 用 于 测量 人 格 的 若干 特 
质 。 例如， 著名 的 《明尼苏达 多 项 人 格调 查 表 》 总 共有 566 个 
是 否 项 目 ， 包 含 3 个 效 度 表 和 10 个 临床 量 表 ， 其 中 临床 景 让 
可 以 测量 人 格 的 10 种 特质 ; 《卡特 尔 16 种 人 格 因素 量 表 》 共 
有 187 个 项 目 ， 用 以 测量 人 格 结构 的 16 种 特质 。 当 然 ， 也 有 
的 量 表 尽 管 题 量 较 大 ， 但 只 测 人 格 的 一 个 方面 ， 如 《内 一 外 向 
量 表 》。 

《2) 自 陈 量 玫 通常 采用 纸 笔 测验 ， 即 将 测验 项 目 印 在 纸 上 
装订 成 册 ， 另 有 一 张 答卷 纸 ， 将 备 选 选项 印 在 答卷 纸 上 ， 被 试 
一 边 阅 读 测验 项 目 ， 一 边 在 答卷 上 选择 适合 于 自己 的 选项 。 这 
样 可 以 同时 测量 许多 人 。 近 年 来 ， 由 于 计算 机 的 发 展 和 普及 ， 
大 们 为 了 省 去 评分 和 计算 上 的 麻烦 ， 将 测验 编 成 计算 机 程序 ， 
受 测 者 直接 在 机 器 上 作答 ， 计 算 机 根据 受 测 者 答题 的 情况 直接 
打印 出 测量 结果 。 | 

(3) 自 陈 量 表 的 计 分 规则 简单 而 客观 ， 施 测 手 续 比 较 简 
便 , 测量 分 数 容易 获得 解释 。 因 此 一 般 对 测验 情境 和 施 测 者 的 
要 求 不 像 智 力 测验 那样 严格 。 


(三 ) 自 陈 量 表 的 售 度 和 效 度 

和 智力 测验 一 样 ， 标 准 化 的 人 格 量 表 应 当 具 有 测验 信 度 和 
效 度 指标 的 报导 ， 但 由 于 人 格 特征 在 行为 中 的 表现 远 比 智力 的 
表现 复杂 和 多 样 ， 也 由 于 人 格 测量 中 受 测 者 具有 较 强 的 防卫 
性 ， 人 格 量 表 的 信和 度 和 效 度 比 智力 测验 要 低 。 就 目前 流行 的 著 
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名 人 格 量 表 而 言 ， 信 度 指 标 通 常 采用 重 测 信 度 和 内 部 一 致 性 信 
度 ， 其 信 度 系数 一 般 不 低 于 0.6; 而 效 度 指标 通常 采用 理论 建 
构 效 度 ， 而 较 少 有 效 标 效 度 的 报导 ， 因 为 在 人 格 测量 中 较 难 找 
到 适当 而 又 实用 的 效 标 。 


二 、《 明 尼 苏 达 多 项 人 格调 查 表 》 的 使 用 


(一 }《 明 尼 苏 达 多 项 人 格调 查 表 》 简 介 

《明尼苏达 多 项 人 格调 查 表 》 英文 简称 MMPI) 是 由 美 
国明 尼 苏 达 大 学 临床 心理 学 系 系 主 任 哈 撒 韦 (S. R. Hath- 
away) 和 心理 治疗 家 麦 金 利 (J. C. Mckinley)〉 于 40 年 代 共 
同 编制 的 。 在 编制 过 程 中 ， 他 们 进行 了 大 时 细致 的 研究 工作 。 
首先 从 大 量 病史 、 早 期 出 版 的 人 格 量 表 以 及 心理 医生 的 笔记 中 
选编 了 大 量 的 项 目 ， 然 后 对 正常 人 和 心理 异常 被 试 进 行 测量 ， 
经 过 重复 测量 ， 交 义 测量 以 验证 每 个 分 量 表 的 信和 度 和 效 度 。 经 
过 临床 实践 的 反复 验证 和 修订 ， 到 1966 年 修订 版 的 项 目 确定 
为 566 个 ， 其 中 16 个 项 目 为 重复 项 目 (用 于 检测 受 测 者 反应 
的 一 致 性 )。566 个 项 目 中 前 399 个 项 目 分 别 分 配 在 13 个 分 量 
表 中 ,包括 10 个 临床 量 表 和 3 个 效 度量 表 ; 其 余 的 项 目 则 与 
一 些 研究 量 表 有 关 。 通 常 在 临床 诊断 中 只 使 用 前 399 个 项 目 。 

MMPI 的 项 目 内 容 范 围 非常 广泛 ， 包括 身体 各 方面 的 状态 
(如 神经 系统 、 心 血管 系统 、 生 殖 系 统 等 )， 精 神 状 态 以 及 对 家 
庭 、 婚 姻 、 宗 教 、 政 治 、 法 律 、 社 会 等 态度 。 

几 干 年 来 ，MMPI 一 直 被 广泛 应 用 ， 翻 译 成 各 种 版 本 达 
100 余 种 ， 应 用 范围 也 扩展 到 诸如 心理 学 、 医 学 、 人 类 学 和 社 
会 学 等 领域 的 研究 工作 中 
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在 中 国 ， 宁 维 真 从 1980 年 开始 主持 试用 修订 MMPI， 于 


1989 年 完成 了 标准 化 工作 ， 取 得 了 中 国 版 的 信 度 和 效 度 资料 ， 


并 制 
的 中 


适当 


序 
01 


定 了 中 国 常 模 。 可 用 于 测量 16 岁 以 上 具有 初中 文化 程度 
国人 。 

修订 后 的 项 目 仍 为 566 个 ， 只 是 对 项 目 中 的 个 别 词句 做 了 
的 改动 。10 个 临床 量 表 的 名 称 及 其 字母 代号 见 表 14.1。 


表 14.1 MMPI 临床 量 表 的 名 称 及 其 字母 代号 


号 量 表 名 称 英文 缩写 序号 量 表 名 称 ”英文 缩写 


疑 病 Hs 06 ”妄想 狂 Pa 

捧 郁 D 07 ”精神 衰弱 。 Pt 

疗 病 Hy 08 ”精神 分 裂 Se 

精神 病态 Pd 09 轻 躁 狂 Ma 

男人 性 化 一 女性 化 Mf 10 ”社会 内 向 Si 
3 个 效 度量 表 的 名 称 和 意义 如 下 ; 


(1) 说 谎 量 表 〈L): 分 数 高 表示 回答 不 真实 。 

(2) 许 病 量 表 〈F): 分 数 高 表示 诈 病 或 确 系 严重 偏执 。 
(3) 校正 量 表 《(K): 分 数 高 表示 一 种 自卫 反应 。 

此 外 ， 在 效 度量 表 中 ， 可 增加 疑问 量 表 (Q)， 即 元 法 回 


答 的 项 目 数 。 无 法 回答 的 项 目 数 超过 一 定 的 标准 ， 则 认为 此 管 


卷 不 


试 应 


可 车 。 


(二 )《 明 尼 苏 达 多 项 人 格调 查 衣 》 的 使 用 

1. 施 测 方法 

按 MMPI 题 册 首 页 上 的 指导 语 进 行 。 在 进行 测验 前 ， 主 
当 热 悉 全 部 测验 材料 (包括 调查 表 的 内 容 、 简 介 .指导 
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语 、 信 度 和 效 度 的 资料 以 及 常 模 资料 等 )， 了 解 受 测 者 的 有 关 
情况 〈 如 文化 程度 、 理 解 能 力 及 身体 状况 )。 测 验 情境 应 尽 可 


”能 安静 ， 没 有 无 关 的 人 在 场 。 如 果 测 验 结果 用 于 临床 诊断 ， 主 


试 在 测验 前 ， 一 定 要 让 患者 了 解 这 个 测验 的 重要 性 以 及 对 他 治 
疗 的 好 处 ， 以 便 得 到 患者 的 合作 。 

2. 计 分 方法 
| 用 预先 制作 的 14 张 套 板 《每 个 分 量 表 一 张 ，Mf 为 两 张 ， 

男女 各 一 张 ) 进行 计 分 ,步骤 如 下 : 

(1) 将 答 着 按 受 测 者 性 别 分 开 。 

(2) 将 答卷 纸 上 同 一 题 划 有 了 两 种 答案 的 题 号 用 彩色 笔划 
去 ， 当 作 没 回答 ， 与 “无 法 回答 ”的 题 数 相 加 ， 作 为 Q 原始 
分 数 。 如 果 总 分 超过 30 分 ， 则 此 答卷 无 效 。 

(3) 将 每 个 分 量 表 的 套 板 依次 覆盖 在 答卷 纸 上 对 准 ， 数 好 
套 板 上 有 多 少 个 圆 洞 被 涂 黑 ， 这 个 数目 就 是 该 分 量 表 的 原始 分 
数 ， 将 此 分 数 登 记 在 此 量 表 的 原始 分 数 栏 内 。 

(4) 在 疑 病 (Hs) 、 精 神 病 态 (Pd)、 精 神 衰 弱 (Pt)、 精 
神 分 裂 (Se) 和 轻 躁 狂 (Ma) 5 个 分 量 表 的 原始 分 数 上 加 天 
分 , 方法 是 Hs + 0.5K, Pd +0.4K, Pt+1.0K, Se+1.0k, 
Ma+0.2K (注意 : 字母 所 表示 的 分 数 均 为 原始 分 数 )}。 不 过 ， 
对 于 中 国 被 试 ， 加 或 不 加 K 分 ， 对 测量 的 总 结果 没有 什么 明 
显影 响 ， 可 以 不 加 KK 分 。 

(5) 将 各 分 量 表 的 原始 分 数 转 记 在 剂 面 图 的 原始 分 数 
栏 内 。 

3. 售 始 分 数 的 转换 

MMPI 的 常 模 采用 了 分 数 。 在 分 数 的 转换 过 程 中 ， 先 将 
受 测 者 在 各 分 量 表 上 的 原始 分 数 根据 常 模 表 ， 转 化 成 相应 的 T 
分 数 ， 登 记 在 剖面 图 的 T 分 数 栏 内 ; 然后 在 剖面 图 上 找到 各 
分 量 表 T 分 数 的 点 ， 将 各 点 相连 ， 就 成 为 一 条 表示 受 测 者 人 
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格 特 征 的 曲线 图 。 

4. 测量 结果 的 解释 

对 各 分 量 表 的 T 分 数 可 参照 MPI 说 明 书 中 对 各 分 量 表 
分 数据 高 的 意义 的 文字 描述 予以 解释 。 这 里 怖 要 强调 的 是 ， 说 
明 书 中 所 列举 的 人 格 特点 只 是 一 类 人 的 共同 的 典型 的 特点 ， 在 
具体 地 解释 一 个 人 的 分 数 时 应 当 持 慎重 和 灵活 的 态度 。 这 一 原 
则 同样 适用 于 其 他 人 和 格 量 表 。 


三 、《 卡 特 尔 16 种 人 格 因素 量 表 》 的 使 用 


(一 )《 卡 特 尔 16 种 人 格 因素 是 表 》 简 介 

《卡特 尔 16 种 人 格 因 素 量 表 》 (简称 16PF) 是 由 美国 仇 
利 诺 州 立 大 学 教授 雷 蒙 德 "B: 卡 特 尔 (Raymond B.Cattell) 经 
过 几 十 年 的 系统 观察 ， 科 学 实验 以 及 因素 分 析 统 计 后 逐渐 形成 
的 。 这 一 量 表 能 在 约 45 分 钟 的 时 间 内 测量 出 16 种 主要 的 人 格 
特质 。 初 中 以 上 文化 程度 的 人 均 可 接受 本 量 表 的 测试 。 

16PF 在 国际 上 广泛 流行 ， 现 已 译 成 法 、 意 、 德 、 日 、 中 
等 多 种 文字 ， 被 许多 国家 修订 。16PF 中 的 16 种 人 格 因素 是 各 
自 独立 的 ,每 种 因素 与 其 他 因素 的 相关 度 较 小 。 借 助 于 本 重 
表 ， 受 测 者 不 仅 可 以 对 自己 在 16 个 因素 上 的 人 格 特点 获得 了 
解 ， 而且 根 据 卡特 尔 制定 的 人 格 因 素 组 合 公 式 可 以 对 自己 的 整 
体 人 格 做 出 评价 。 

16PF 英文 版 有 A、B 两 套 等 值 的 测 题 ， 每 套 187 个 项 目 ， 
分 配 在 16 个 因素 中 。 每 个 因素 所 包含 的 项 目 数 不 等 ， 少 则 13 
个 ， 多 则 26 个 。 每 个 项 目 有 a、b、c 3 个 选项 {如 a: 是 的 ; 
b: 不 一 定 ; c: 不 是 的 ) 、 受 测 者 根据 自己 的 情况 选择 一 个 合 
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适 的 选项 。 
16PF 中 国 版 的 修订 工作 是 在 辽宁 省 修订 本 的 基础 上 由 戴 
忠生 与 祝 蓓 里 主持 完成 的 ， 取 得 了 全 国 范围 内 的 信和 度 和 效 度 资 
料 ， 制 定 了 中 国 成 人 〈 男 、 女 》 常 模 、 中 国 大 学 生 〈 男 、 女 》 
常 模 、 中 国 中 学 生 〈 男 、 女 ) 常 模 、 中 国产 业 工 人 常 模 、 中 国 
专业 技术 人 员 常 模 、 中 国 干部 常 模 以 及 上 海 市 的 各 种 常 模 。 
16PF 所 测量 的 人 格 因素 的 名 称 及 其 字母 代号 见 表 14.2。 


天 14.2 16 种 人 格 因素 的 名 称 及 其 字母 代号 


代 导 因素 名 称 代号 因素 名 称 代号 因素 名 称 代号 因素 名 称 
A 乐 群 性 F 兴奋 性 L 怀疑 性 Qi 实验 性 
B 陪床 性 G 有 和 恒 性 MM 幻想 性 Q，。 独立 性 
C 稳定 性 ”HH 慑 为 性 N 世故 性 Q 自律 性 
E 侍 强 性 I 敏感 性 0 优 虑 性 Q 紧张 性 


{二 )《 卡 特 尔 16 种 人 格 因素 量 表 》 的 使 用 

1. 施 测 方法 

16PF 属 团体 测验 。 施 测 时 ， 先 给 每 个 受 测 者 发 一 张 答 着 
纸 ， 填 上 受 测 者 的 姓名 、 性 别 、 年 龄 、 职 业 、 测 验 日 期 等 。 然 _ 
后 发 给 测 题 ， 枉 到 测 题 的 说 明 部 分 ， 让 受 测 者 边 看 边 听 主 试 朗 
读 其 中 的 指导 语 ， 并 在 主 测 的 指导 下 完成 答卷 纸 上 方 的 4 个 例 
题 ， 待 受 测 者 掌握 答题 方法 后 ， 即 让 受 测 者 自己 完成 正式 测 
验 。 对 施 测 情境 的 要 求 与 MMPI 相 同 。 

2. 计 分 方法 . 

每 个 项 目 有 a、b、c 3 个 选项 ,根据 受 测 者 对 每 一 项 目的 
回答 ， 分 别 记 为 G0，1，2 分 或 2，1，0 分 。 实 际 操作 时 ， 要 用 
预先 制作 的 两 张 有 机 玻璃 计 分 套 板 ， 每 张 套 板 记 8 个 因素 的 分 
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数 。 方 法 是 ; 将 套 板 套 在 答卷 纸 上 ， 分 别 计算 出 每 一 因素 上 的 
原始 分 数 ， 将 此 分 数 登 记 在 剖面 图 左 侧 的 原始 分 数 栏 内 。 

3. 原始 分 数 的 转换 

16PF 的 常 模 采用 标准 10 分 制 。 根 据 受 测 者 的 文化 程度 或 
职业 种 类 将 受 测 者 各 因素 的 原始 分 数 对 照常 模 表 分 别 转 化 成 标 
准 分 数 ， 并 登记 在 剂 面 图 左 侧 的 标准 分 数 栏 内 。 然 后 在 剖面 图 
上 找到 各 因素 的 标准 分 数 点 ， 将 各 点 相连 ， 即 成 为 一 条 表示 受 
测 者 人 格 特征 的 曲线 图 。 

4. 测量 结果 的 解释 

根据 剖面 图 上 对 各 因素 高 分 特征 和 低 分 特征 的 描述 ， 可 以 
大 体 解释 受 测 者 在 16PF 上 的 主要 特点 。 但 如 要 作 进 一 步 的 解 
释 ， 则 秆 参照 《16PF 手册 》 中 的 文字 描述 。 

16PF 不 仅 能 够 对 受 测 者 在 16 种 人 格 因素 上 的 主要 特征 进 
行 分 析 性 描述 ,而且 能 够 根据 实验 统计 结果 所 得 的 4 个 公式 对 
他 在 次 级 人 格 因素 上 的 特征 (分别 用 于 诊断 受 测 者 的 适应 性 、 
外 向 性 、 人 情结 性 和 果断 性 ) 进行 综合 描述 。 同 时 ， 可 以 利用 另 
外 4 个 公式 预测 受 测 者 在 某 些 特殊 情境 中 的 行为 特征 ( 即 心理 
健康 水 平 、 专 业 成 就 的 可 能 性 、 创 造 潜 力 、 对 新 环境 的 适应 能 
力 )， 尤 其 适用 于 升学 、 就 业 及 生活 问题 的 指导 。 


三 、《 艾 森 克 人 格 问卷 》 的 使 用 


(一 )《 艾 森 克 人 格 问卷 》 简 介 

《 艾 森 克 人 格 问卷 》 (英文 简称 EPQ)， 由 英国 心理 学 家 
汉 斯 ' 艾 森 克 〈H.].Eysenck) 和 其 夫人 于 1975 年 在 先前 几 个 
人 格调 查 表 的 基础 上 编制 。 它 的 理论 基础 是 艾 森 克 所 提出 的 人 
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格 三 维度 理论 。 艾 森 克 认为 ， 虽 然 人 格 在 行为 上 的 表现 形式 是 
多 样 的 ， 但 真正 支配 人 行为 的 人 格 结构 却 是 由 少数 几 个 人 格 维 
度 构 成 的 。 艾 森 克 经 过 长 期 的 实验 研究 和 临床 观察 ， 提 出 精神 
质 、 外 倾 性 和 神经 质 是 人 和 格 的 注 个 基本 维度 。 这 里 ， 人 格 维 亡 
代表 着 一 个 连续 体 ， 每 个 人 都 或 多 或 少 地 具有 这 三 个 维度 上 的 
特征 ， 但 不 同 的 个 人 在 这 三 个 维度 上 的 表现 程度 是 不 同 的 。 因 
此 ， 通 过 测量 可 以 在 这 些 维度 上 找到 受 测 者 的 特定 位 置 。 根 据 
这 种 观点 编制 的 EPQ 由 4 个 分 量 表 构成 (P、E、N 和 LL), 用 
于 测量 受 测 者 在 精神 质 (P)、 外 倾 性 〈E) 和 神经 质 (N) 三 
个 人 格 维度 上 的 特征 。 世 是 说 度量 表 ， 用 于 识别 受 测 者 回答 问 
题 时 的 诚实 程度 。 该 问卷 分 儿童 各 成 人 两 种 ， 儿 童 问卷 共有 
97 个 项 目 ， 适 用 于 7~ 15 岁 的 受 测 者 ， 成 人 问卷 共有 101 个 
项 目 ， 适 用 于 16 岁 以 上 的 受 测 者 。 

EPQ 中 国 版 由 获 订 先 教授 主持 修订 。 和 修订 后 的 儿童 问卷 
和 成 人 问卷 各 由 88 个 项 目 组 成 。 每 个 项 目 都 有 “是 ”和 “ 否 ” 
(在 儿童 问卷 中 是 “是 ”和 “不 是 ”) 两 个 选项 ， 供 受 测 者 选 
择 。 他 们 通过 标准 化 工作 ， 取 得 了 全 国 范围 内 的 信和 度 和 效 度 资 
料 ， 制 定 了 中 国 儿 童 〈 男 、 女 ) 和 成 人 〈 男 、 女 ) 常 模 。 


(二 )《 艾 森 克 人 格 问卷 》 的 使 用 

1. 施 测 方法 | 

EPQ 属于 团体 测验 。 施 测 时 ， 先 给 每 个 受 测 者 发 一 张 答 
卷 纸 ， 填 上 受 测 者 的 姓名 、 性 别 、 年 龄 、 测 验 日 期 、 职 业 、 文 
化 等 。 然 后 发 给 测 题 ， 翻 到 测 题 的 说 明 部 分 ， 让 受 测 者 边 看 边 
听 主 试 朗读 其 中 的 指导 语 ， 待 受 测 者 掌 担 答 题 方 法 后 ， 即 让 受 
测 者 自己 完成 正式 测验 。 对 施 测 情境 的 要 求 与 MMPI 以 及 
16PF 相同 。 
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2. 计 分 方法 

EPQ 记分 的 依据 是 记分 键 ( 见 该 问卷 的 《手册 》)。 记 分 
链 中 的 数字 是 项 目 号 ， 项 目 号 前 无 “- ”号 的 表示 该 项 目 若 受 
测 者 团 “ 是 ” 记 1 分 ， “ 否 ” (或 “不 是 ") 记 0 分 ; 项 目 号 
前 有 “-” 号 的 表示 该 项 目 车 受 测 者 团 “ 否 ”( 或 “不 是 ”) 记 
1 分 , 图 “是 ” 记 0 分 。 按 P、E、N、L 4 个 分 量 表 分 别 记 
分 ， 然 后 算出 各 分 量 表 的 总 分 (原始 分 数 )。 

3. 原始 分 数 的 转换 

EPQ 的 常 模 采 用 T 分 数 。 根 据 受 测 者 的 性 别 和 年 龄 将 受 
测 者 各 分 量 表 的 原始 分 数 对 照常 模 表 分 别 转化 成 T 分 数 ， 然 
后 在 剖面 图 上 找到 各 维度 的 T 分数 点 ， 将 各 点 相连 ， 即 成 为 
一 条 表示 受 测 者 人 格 特征 的 曲线 图 。 

4. 测量 结果 的 解释 

对 精神 质 (P)、 外 倾 性 (E) 和 神经 质 (N) 三 个 人 格 维 
度 上 受 测 者 的 T 分 数 的 解释 可 参照 《手册 》 中 对 高 分 特征 和 
低 分 特征 的 文字 描述 。 

此 外 ， 艾 森 克 还 将 外 倾 性 〈《E) 和 神经 质 (N) 两 个 维度 
作 了 垂直 交叉 分 析 ， 这 样 就 可 以 得 到 4 种 典型 的 人 格 类 型 ， 它 
们 的 名称 及 其 主要 特征 如 下 : 

(1) 外 向 稳定 型 ， 善 领导 ,无 忧虑 ， 活 泌 ， 悠 闲 ， 易 共 
鸣 ， 和 健 庶 ， 开 朗 ， 善 交 汪 。 

(2) 外 向 易 变型 主动 ， 乐观， 冲动 ， 易 变 ， 易 激动 ， 好 
斗 ， 不 安定 ， 易 怒 。 

(3) 内 向 易 变型 : 文 更， 不善 交际 ， 绒 默 ， 翡 观 ， 严 肃 ， 
刻板 ， 焦 拒 ， 忧 部 。 

(4) 内 向 稳定 型 : 镇 静 ， 性 情 平 和 ， 可 信赖 ， 有 节制 ， 平 
静 ， 深 思 ， 谦 慎 ， 被 动 。 

除 以 上 4 种 典型 的 人 格 类 型 外 ,还 有 多 种 变型 .根据 受 测 
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者 了 和 N 的 了 分 数 可 以 在 剖面 图 上 找到 相应 的 交点 。 
四 、《 学 生性 格 量 表 (11 ~ 18 岁 )》 的 使 用 


《一 ) 学 生性 格 量 表 (11 ~ 18 岁 ) 简介 

《学 生 人 性格 量 表 (11 ~ 18 岁 )》( 英 文 简称 SPS)， 由 云南 
病 范 大 学 沙 毓 英 、 张 锋 等 人 共同 编制 ， 适 用 于 测量 中 国 11 ~ 
18 岁 中 小 学 生 的 性 格 〈 亦 即 人 格 》 特征 。 该 量 表 于 1992 年 通 
过 专家 委员 会 的 鉴定 ， 并 于 19%5 年 完成 了 云南 省 常 模 的 编制 
工作 。 

SPS 的 理论 基础 是 编制 者 提出 的 中 国人 性格 层次 结构 理 
论 。 他 们 认为 ,性 格 是 多 层次 多 因素 的 整合 结构 ， 在 横向 上 可 
分 解 为 彼此 相 联 系 的 多 种 特质 因素 ， 在 纵向 上 可 分 解 为 由 抽象 
到 具体 的 多 种 层次 。 人 性格 的 最 高 居 是 整合 层 ， 也 就 是 性 格 本 
身 。 第 二 层 是 集 质 层 ， 分 解 出 性 格 的 5 个 亚 结构 ， 即 ; 中 生活 
旨 趣 : 指 个 人 对 生活 目标 和 生活 价值 的 追求 ; 加 认 知 风格 ; 指 
个 人 认 知 事物 、 思 考 问题 的 方式 ; 国情 绪 特 征 : 指 个 人 的 情绪 
反应 特点 ; 图 意志 品质 : 指 个 人 的 意志 行为 特点 ; 加 态度 倾 
向 ; 指 个 人 对 和 集体、 他 人 和 自我 的 对 待 方式 。 第 三 层 是 特质 
层 ， 每 个 亚 结构 又 具体 分 解 为 若干 种 性 格 特质 。 生 活 旨 趣 被 分 
解 为 实惠 性 、 知 识 性 、 支 配 性 和 奉献 性 四 种 特质 ; 认 知 风格 被 
分 解 为 客观 性 、 全 面 性 、 独 立 性 、 简 略 性 和 敏捷 性 五 种 特质 ; 
情绪 特征 被 分 解 为 激活 性 、 强 烈性 和 持续 性 三 种 特质 ; 意志 品 
质 被 分 解 为 自觉 性、 自制 人 性、 坚持 性 、 果 断 性 和 敢 为 性 五 种 特 
质 ; 态度 倾向 被 分 解 为 责任 感 、 荣 誉 感 、 进 取 性 、 利 他 性 、 真 
诚 性 、 攻 击 性 和 外 倾 性 七 种 特质 。 总 共 24 种 性 格 特质 、 第 站 
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层 是 行为 屋 ， 指 的 是 典型 情境 中 的 典型 行为 反应 ， 是 最 能 反映 
特质 的 可 观察 的 有 代表 性 的 行为 。 性 格 特质 表现 在 个 人 对 不 同 
情境 的 类 似 反 应 之 中 ， 因 此 通过 编制 量 表 测 量 个 人 在 典型 情境 
中 的 典型 行为 ， 就 有 可 能 推断 出 个 人 的 性 格 特质 。 

根据 上 述 理论 观点 编制 的 《学 生性 格 量 表 (11 ~ 18 岁 )》 
共有 168 个 项 目 。 每 种 特质 包括 7 个 项 目 ， 为 一 个 分 量 表 ， 共 
24 个 分 量 表 。 每 个 项 目 均 是 对 一 个 行为 情境 的 文字 描述 ， 每 
个 项 目 之 下 是 对 4 种 常见 的 典型 行为 反应 的 文字 描述 ， 供 受 测 
者 选择 。 例 如 ; 

和 一 个 人 初次 打交道 时 ， 你 会 : 

(1) 觉得 不 自在 ， 无 话 可 说 。 

{2) 觉得 拘束 ， 找 不 到 多 少 话说 。 

《3) 很 快 就 能 和 他 熟悉 起 来 。 

(4) 很 快 就 能 和 他 成 为 好 朋友 。 

SPS 在 张 锋 的 主持 下 现 己 获得 了 在 云南 省 范围 内 的 信和 度 种 
效 度 资 料 ， 并 分 别 制定 了 云南 省 城市 汉族 、 农 村 汉族 和 农村 少 
数 民 族 的 小 学 生 ( 男 、 女 ) 常 模 、 初 中 生 { 男 、 女 ) 常 模 和 高 
中 生 ( 男 、 女 ) 常 模 。 

通过 对 小 学 五 年 级 (N = 62， 男女 各 半 ， 间 所 两 个 月 )、 
初中 二 年 级 (N = 66， 男 女 各 半 ， 间隔 两 周 ) 和 高 中 二 年 级 
(N=86， 男 女 各 半 ， 间隔 两 周 ) 实施 重 测 ， 获 得 各 特质 的 重 
测 相 关系 数 如 表 14.3。 


表 14.3 SPS 各 特质 的 重 测 根 关 系数 


特质 名 称 小 学 初中 高 中 特质 名 称 小 学 初中 高 中 


实惠 性 ”0.618 0.517 0.712 自觉 性 0.39 0.738 0.569 
知识 性 ”0.521 0.755 0.567 自制 性 0.564 0.685 0.604 
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支配 性 ”0.567 0.555 0.617 坚持 性 0.584 0.580 0.657 
奉献 性 ”0.557 0.582 0.668 果断 性 0.513 0.679 0.615 
客观 性 ”0.560 0.576 0.524 ” 敢 为 性 0.508 0.564 0.601 
全 面 性 ”0.675 0.583 0.587 责任感 0.576 0.542 0.783 
独立 性 ”0.585 0.553 0.532 荣誉 感 0.631 0.538 0.818 
简略 性 ”0.53 0.598 0.542 进取 性 0.59 0.638 0.605 
敏捷 性 ”0.598 0.588 0.554 利他 性 0.596 0.617 0.547 
激活 性 ”0.558 0.627 0.616 真诚 性 0.6l8 0.6%4 0.567 
强烈 性 ”0.534 0.609 0.697 攻击 性 0.585 0.681 0.557 
持续 性 ”0.626 0.656 0.741 .外 倾 性 0.574 0.711 0.724 


通过 对 小 学 五 、 六 年 级 (N = 124， 男女 各 半 ), 初中 一 、 
二 、 三 年 级 (CN = 238， 男 女 各 半 ) 和 高 中 一 、 二 、 三 年 级 (N 
=260， 男 女 各 半 ) 施 测 ， 获 得 各 特质 内 部 一 致 性 信和 度 系 数 如 
表 14.4。 


于 14.4 SPS 各 特质 的 内 部 一 致 性 信和 讶 系数 


特质 名 称 小 学 初中 高 中 特质 名 称 小 学 初中 高 中 
实惠 性 ”0.789 0.804 0.788 自觉 性 0.819 0.830 0.802 
知识 性 0.720 0.830 0.774 自制 性 0.811 0.840 0.820 
支配 性 0.648 0.778 0.759 坚持 性 0.840 0.785 0.766 
奉献 性 0.707 0.850 0.802 果断 性 0.860 0.830 0.819 
客观 性 0.637 0.766 0.751 敢 为 性 0.783 0.779 0.802 
全 面 性 0.628 0.771 0.744 责任 感 0.795 0.829 0.826 
独立 性 0.746 0.769 0.810 荣誉 感 0.786 0.850 0.857 
简略 性 ”0.604 0.737 0.741 进取 性 0.899 0.887 0.832 
敏捷 性 0.759 0.855 0.824 利他 性 0.808 0.837 0.808 
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激活 性 0.768 0.786 0.783 真诚 性 0.804 0.840 0.811 
强烈 性 0.890 0.807 0.810 攻击 性 0.846 0.786 0.779 
持续 性 0.820 0.842 0.833 外 倾 性 0.893 0.835 0.837 


SPS 的 效 度 指标 采用 建构 效 度 ， 分 别 对 小 学 五 、 六 年 级 
(N= 124， 男 女 各 半 )， 初 中 一、 二 、 三 年 级 (N = 238， 男 女 
各 半 ) 和 高 中 一 、 二 、 三 年 级 (N = 260， 男 女 各 半 ) 施 测 ， 
获得 三 个 学 段 各 特质 之 间 的 相关 系数 。 结 果 表 明 ， 除 少数 特质 
之 间 具 有 中 等 程度 的 相关 外 ， 大 多 数 特质 之 间 的 相关 较 低 或 接 
近 零 相关 。 因 此， 多 数 因素 是 相对 独立 的 性 格 特质 。 


(二 ) 《学 生性 格 置 表 《11 ~ 18)》 的 使 用 

1. 施 测 方法 

SPS 属于 团体 测验 。 施 测 时 ， 先 给 每 个 受 测 者 发 一 张 答卷 
纸 ， 并 息 写 有 关 信 息 。 然 后 发 给 测 题 ， 翻 到 题 册 第 1 页 的 说 明 
部 分 ， 让 受 测 者 边 看 边 听 主 试 朗读 其 中 的 指导 语 ， 并 在 主 试 指 
导 下 完成 3 个 例题 ， 待 受 测 者 掌握 答题 方法 后 ， 即 让 受 洞 者 自 
己 完成 正式 测验 。 对 施 测 情境 没有 特殊 要 求 ， 一 般 在 学 生 自 己 
的 教室 里 就 可 以 了 。 

2. 计 分 方法 

SPS 的 计 分 规则 是 有 些 分 量 表 的 项 目 按 受 测 者 所 选 的 答案 
1、2、3、4 分别 记 0、1、2、3 分 ; 有 些 分 量 表 的 项 目 按 受 测 
者 所 选 的 答案 1、2、3、4 分 别 记 3、2、1、0 分 。 将 受 测 者 在 
每 个 分 量 表 项 目 上 的 得 分 加 起 来 ， 登 记 在 答卷 纸 的 “备注 ”一 
栏 ， 即 为 其 特质 总 分 〔 原 始 分 数 )， 最 低 分 0 分 ， 最 高 分 
21 分 。 

3. 原始 分 数 的 转换 

SPS 的 常 模 采 用 T 分 数 ， 先 将 受 测 者 的 原始 分 数 转 合 在 
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剂 面 图 的 原始 分 数 栏 内 ， 然 后 根据 受 测 者 的 民族 、 性 别 和 学 段 
将 受 测 者 各 分 量 表 的 原始 分 数 对 照常 模 表 分 别 转化 成 T 分 数 ， 
在 剖面 图 上 找到 各 特质 的 分数 点 ， 将 各 点 相连 ， 即 为 表示 
受 测 者 性 格 特征 的 曲线 图 。 

4. 测量 结果 的 解释 

对 受 测 者 在 24 种 性 格 特质 上 的 分数 的 解释 可 参照 《 手 
册 》 中 对 高 分 特征 和 低 分 特征 的 文字 描述 。 沉 要 说 明 的 是 ， 
SPS 目前 的 常 模 资 料 来 自 云 南 省 城乡 ， 其 它 地 区 在 使 用 时 应 当 
充分 考虑 它 的 局 限 性 。 而 作为 研究 工具 ， 可 以 借 此 进行 不 同 地 
区 间 的 群体 比较 。 


第 三 节 ”投射 测验 
一 、 投 射 测 验 及 其 理论 基础 


{一 ) 投射 测验 的 性 质 及 其 特点 

投射 〈projection》 是 指 个 人 对 客体 特征 的 想象 式 解 释 ， 在 
这 种 解释 中 ， 个 人 具有 将 自己 身上 发 生 的 心理 过 程 无 意识 地 附 
着 在 客体 身上 的 倾向 。 换 名 话说， 投射 是 个 人 把 自己 的 思想 、 
态度 、 愿 望 、 情 绪 、 性 格 等 心理 特征 元 意识 地 反应 在 对 事物 的 
解释 之 中 的 心理 倾向 。 由 于 心理 投射 的 作用 ， 人 们 常常 把 无 生 
命 的 事物 看 成 是 有 生命 的 事物 ， 把 无 意义 的 现象 解释 成 有 意义 
的 现象 。 在 这 种 情况 下 ， 个 人 对 客体 特征 的 投射 性 解释 所 反映 
的 不 是 客体 本 身 的 性 质 . 而 是 解释 者 自己 的 心理 特征 。 因 此 .、 
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运用 投射 技术 测量 个 人 对 特定 事物 的 主观 解释 ， 就 有 可 能 获得 
对 受 测 者 人 格 特征 的 认识 。 

投射 技术 作为 一 个 心理 测量 术语 ， 是 1938 年 由 主题 统 觉 
测验 的 编制 者 莫 瑞 最 早 提 出 的 ， 但 投射 测验 作为 一 种 心理 测量 
技术 早 在 1921 年 之 前 就 已 有 人 开始 探索 并 实际 应 用 了 。1921 
年 ， 罗 夏 克 发 表 了 他 编制 的 墨迹 测验 ， 当 时 未 引起 人 们 的 重 
视 。1938 年 ， 弗 兰 克 (L.K.Frank) 明确 阐述 了 投射 技术 的 
内 涵 及 其 重要 人性， 他 认为 投射 技术 能 够 唤醒 被 试 内 心 世界 或 人 
格 特 征 的 不 同 表 现形 式 ， 从 而 在 对 测验 项 目的 反应 中 投射 出 被 
试 内 在 的 需要 和 愿望 。 

投射 技术 的 基本 方式 是 向 受 测 者 提供 预先 编制 的 一 些 未 经 
组 织 的 、 意 义 模 糊 的 标准 化 刺激 情境 ， 让 受 测 者 在 不 受 任 何 限 
制 的 情况 下 ， 自 由 地 对 刺激 情境 作出 他 的 反应 ， 然 后 通过 分 析 
受 测 者 的 反应 ， 推 源 受 测 者 的 人 格 特征 。 按 照 这 种 技术 编制 的 
最 为 著名 的 人 格 测验 是 罗 夏 克 墨 迹 测验 和 莫 瑞 主题 统 觉 测验 。 

投射 测验 的 特点 是 ， 测验 材料 没有 明确 的 结构 和 确切 的 
意义 ,这 就 为 受 测 者 提供 了 针对 测验 材料 进行 广阔 自由 联想 的 
机 会 和 空间 ; @ 受 测 者 对 测验 材料 的 反应 不 受 限制 ， 可 以 根据 
自己 对 测验 材料 的 理解 作 任 何 想象 式 解释 ， 因 此 受 测 者 对 测验 
材料 的 解释 在 很 大 程度 上 不 是 决定 于 测验 材料 的 性 质 ， 而 是 决 
定 于 受 测 者 的 人 格 特征 和 当时 的 心理 状态 ; 图 测验 的 目的 具有 
明显 的 隐蔽 性 ， 受 测 者 事先 并 不 知道 施 测 者 对 他 的 反应 作 何 心 
理学 的 解释 ， 这 就 在 很 大 程度 上 避免 了 受 测 者 的 伪装 和 防卫 ， 
使 汕 验 的 结果 更 能 反映 受 测 者 真实 的 人 格 特征 ; @ 对 测验 结果 
的 解释 重 在 对 受 测 者 的 人 格 特征 获得 整体 性 的 了 解 ， 而 不 是 对 
某 个 或 某 些 单个 人 格 特 质 的 关注 ; @ 投 射 测 验 的 内 容 多 为 无 明 
确 意义 的 图 片 ， 在 测验 时 不 受 语 言 文字 的 限制 ， 所 以 ， 被 广泛 
地 应 用 于 人 格 的 跨 文化 研究 ; @@ 相 对 于 自 陈 量 表 ， 投 射 测验 的 
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最 大 局 限 是 计 分 上 的 困难 ， 这 使 得 研究 者 对 测验 结果 难以 进行 
确定 的 定量 分 析 。 


(二 ) 投射 测验 的 理论 基础 

投射 测验 重 在 探讨 人 的 无 意识 心理 特征 ， 对 受 测 者 在 测验 
上 反应 的 解释 就 不 可 各 免 地 受到 精神 分 析 理 论 的 影响 。 按 照 精 
神 分 析 理论 的 无 意识 观点 ， 个 人 无 法 单 凭 自己 的 意识 功能 了 和 解 
到 自己 的 人 格 特征 ， 因 此 ， 运 用 自 陈 问卷 法 不 可 能 测量 到 受 测 
者 的 真实 的 人 格 特征 。 如 果 我 们 以 某 种 无 确定 意义 的 刺激 情境 
作为 引导 ， 受 测 者 就 会 在 不 知 不 觉 中 将 自己 无 意识 结构 中 的 愿 
望 、 要 求 、 动 机 、 心 理 溃 突 等 特征 投射 在 对 制 激情 境 的 解 
释 中 。 

从 上 述 理论 出 发 ， 投 射 测验 假定 ，@ 人 们 对 外 部 事物 的 解 
释 性 反应 都 是 有 其 心理 原因 的 ， 同 时 也 是 可 以 给 予 说 明和 预测 
的 ; @ 人 们 对 外 部 刺激 的 反应 虽然 决定 于 所 呈现 的 刺激 的 特 
征 ， 但 反应 者 过 去 形成 的 人 格 特 征 、 他 当时 的 心理 状态 以 及 他 
对 未 来 的 期 望 等 心理 因素 也 会 渗透 在 他 对 刺激 的 反应 过 程 及 其 
结果 之 中 ; @@ 正 因为 个 人 的 人 格 会 无 意识 地 渗透 在 他 对 刺激 情 
境 的 解 妓 性 反应 之 中 ， 所 以 ， 通 过 向 受 测 者 提供 一些 意义 模糊 
的 刺激 情境 ， 让 受 测 者 对 这 种 情境 做 出 自己 的 解释 ， 然 后 通过 
分 析 他 解释 的 内 容 ， 就 有 可 能 获得 对 受 测 者 自身 的 人 格 特征 
认识 。 


三) 投射 测验 的 信和 度 和 效 度 

虽然 投射 测验 在 国外 被 广泛 地 应 用 于 对 人 格 特征 的 评价 过 
程 中 ， 尤 其 是 本 世纪 40 年 代 至 60 年 代 的 临床 心理 学 工作 者 更 
是 把 它 视 为 临床 诊断 中 不 可 缺少 的 工具 。 但 是 ， 对 投射 测验 的 
批评 却 一 直 没有 停 卜 过 ”除了 谈 到 操作 此 种 测验 的 技术 极度 旭 
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杂 ， 难 以 掌握 ， 难 以 获得 数量 化 的 常 模 资料 外 ， 最 为 严重 的 批 
评 莫 过 于 对 投射 测验 的 信和 度 和 效 度 持 质疑 态度 。 以 罗 夏 克 墨 迹 - 
测验 为 例 ， 虽 然 有 研究 资料 认为 它 的 信 度 和 效 度 是 不 错 的 ， 但 
是 更 多 的 研究 却 证 明 它 的 信 度 和 效 度 都 很 低 。 导 致 这些 相 互 巴 
盾 的 研究 结果 的 一 个 原因 是 投射 测验 本 身 的 性 质 决 定 了 难以 获 
得 确切 的 信 度 和 效 度 资料 ， 也 难以 在 不 同 的 测验 结果 之 癌 进 行 
有 效 的 比较 。 所 以 ， 目 前 投射 测验 的 应 用 在 走 下 坡 路 。 在 我 
国 ， 除 了 裴 炮 先 对 罗 夏 克 墨 迹 测验 在 小 范围 内 做 过 试用 外 ， 对 
投射 测验 的 研究 和 应 用 工作 尚未 展开 。 本 章 以 下 部 分 所 介绍 的 
有 罗 夏 克 遇 迹 测验 和 莫 瑞 主题 统 觉 测验 只 供 有 兴趣 的 读者 了 解 ， 
而 不 能 作为 开展 这 项 工作 的 技术 依据 。 


二 、 罗 夏 克 墨迹 测验 简介 


(一 ) 罗 夏 区 骂 迹 测验 的 形成 

罗 和 夏 克 墨迹 测验 是 由 瑞士 精神 病 学 家 罗 夏 交 
(H.Rorsehach) 经 过 长 期 的 试验 和 比较 研究 后 创制 的 一 种 投射 
测验 。 他 从 1910 年 开始 用 画 片 来 研究 精神 障碍 对 病人 知觉 过 
程 的 影响 ， 后 来 改 用 里 迹 图 。 在 最 初 制作 墨迹 图 时 ， 他 先 在 一 
张 纸 的 中 央 沈 一 堆 墨 汁 ， 然 后 将 纸 对 折 ， 并 用 力 挤 压 ， 从 而 形 
成 两 边 对 称 但 每 次 形状 不 一 的 图 形 。 罗 夏 克 用 大 量 这 样 的 曼 迹 
图 片 对 各 种 精神 病人 进行 试验 发现 不 同类 型 的 精神 病人 对 墨 
迹 图 片 的 反应 不 同 ， 然 后 再 和 低能 者 、 正 常人 、 艺 术 家 的 反应 
作 比 较 ， 最 后 选 定 其 中 的 10 张 墅 迹 图 片 作为 测验 材料 ， 并 确 
定 了 记分 方法 和 解释 测验 结果 的 源 则 ， 于 1921 年 正式 发 表 。 
10 张 果 迹 图 卡 中 、 有 5 张 是 黑 吉 的 。 有 3 张 是 彩色 的 ， 人 有 2 


第 十 四 章 ”人格 测量 ,357 ， 


张 是 除 黑色 外 ， 还 带 有 鲜明 的 红色 。 


(二 ) 实施 风 夏 克 虹 和 迹 测 验 的 基本 程序 

实施 罗 夏 克 墨 迹 测 验 是 一 项 极度 复杂 的 工作 ， 只 有 那些 经 
过 专门 的 培训 ， 并 具有 丰富 临床 经 验 的 人 员 才 能 使 用 。 这 里 介 
绍 的 只 是 其 中 最 基本 的 实施 程序 。 

1. 指导 语 

在 施 测 之 前 ， 主 试 应 当 向 受 测 者 提供 一 个 简短 的 指导 语 ; 
要 给 你 看 的 图 卡 上 印刷 着 偶然 形成 的 墨迹 图 象 ; 请 你 将 看 到 图 
卡 时 所 联想 到 的 东西 ， 不 论 什么 ， 都 自由 地 、 源 封 不 动 地 说 出 
来 ; 回答 无 所 谓 正 确 与 不 正确 ， 所 以 ， 请 你 看 到 什么 就 说 
什么 。 

2. 施 测 

施 测 过 程 分 4 个 阶段 : 

@@ 自 由 反应 阶段 ; 让 受 测 者 对 所 看 到 的 墨迹 图 的 内 容 进行 
自由 联想 ， 主 试 原原本本 地 记录 受 油 者 的 所 有 言语 反应 。 在 这 
一 阶段 ， 主 试 与 受 测 者 之 间 一 般 不 应 交谈 。 

四 提问 阶段 : 在 这 一 阶段 ， 主 试 为 了 对 受 测 者 的 反应 进行 
记号 化 ， 有 针对 地 向 受 测 者 提出 问题 。 

图 类 比 阶 段 ; 当 利 用 经 过 提问 获得 的 资料 仍 不 能 搞 清 记号 
化 的 问题 时 ， 可 在 类 比 阶段 作 进 一 步 的 商讨 。 

图 极限 测验 阶段 ; 在 这 一 阶段 ， 主 试 对 受 测 者 的 反应 产生 
疑问 时 ， 进 行进 一 步 确认 。 

3. 记号 化 

记号 化 是 指 对 受 测 者 的 测验 资料 进行 分 类 ， 将 具有 相似 特 
性 的 反应 归 类 ， 并 给 予 同样 的 记号 。 记 号 化 包括 4 个 方面 ， 

@ 区 位 记号 ; 这 是 根据 受 测 者 对 墨迹 图 反应 的 范围 进行 的 
分 类 ， 有 5 种 类 别 : 整体 反应 {WW)、 普 通 局 部 反应 (D)、 细 
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微 局 部 反应 (d)、 特 殊 局 部 反应 (Dd) 和 空白 反应 (S)。 

四 决定 因子 记号 ;这 是 根据 受 测 者 对 墨迹 图 反应 时 的 依据 
所 作 的 分 类 ， 有 4 个 方面 : 形状 反应 〈(F)、 运 动 反应 〈M)、 
浓淡 反应 〈(K) 和 色彩 反应 〈C)。 

图 内容 记号 : 这 是 根据 受 测 者 对 墨迹 图 所 作 的 反应 的 内 容 
进行 的 分 类 ， 主 要 有 以 下 典型 的 反应 内 容 : 人 《〈H)、 动 物 
(A)、 解 剖 (At)、 人 性 (Sex) 、 自 然 (Na) 、 物 体 (0Obj) 等 等 。 

@ 独 创 记号 ; 这 是 根据 受 测 者 对 缀 迹 图 反应 的 独特 性 所 作 
的 分 类 ， 有 普通 反应 (P) 和 独创 反应 〈0) 两 种 情况 。 

4. 测验 结果 的 解释 

根据 上 述 记 号 化 的 结果 ， 在 决定 因子 的 心理 图 像 上 标 上 每 
个 因子 的 反应 次 数 ， 将 各 点 相 联 ， 即 是 受 测 者 的 人 格 图 像 。 然 
后 结合 反应 区 位 、 反 应 内 容 、 反 应 的 独创 性 ， 以 及 它们 之 间 的 
数量 关系 ， 根 据 测验 手册 中 的 描述 ， 解 释 受 测 者 的 人 格 特征 。 

一 般 来 说 ， 克 分 高 ， 表 示 具 有 高 度 的 综合 能 力 ， 但 过 高 
也 表明 缺乏 精细 分 析 的 能 力 ，M 分 高 ， 表 示 具 有 想象 力 和 移 
情 倾向 ;，C 分 高 ， 表 示 性 格外 向 ,情绪 不 稳定 ; A 分 高 ， 且 反 
应 资料 呈 无 组 织 的 状态 时 ， 表 示 智 力 低 下 ， 思 维 刻 板 ; F 分 
高 ， 表 示 具 体 良 好 的 自我 控制 能 力 和 情绪 活动 的 和 谐 ; K 分 
高 ， 可 能 预示 着 不 安 的 情绪 ， 等 等 。 在 对 各 记号 项 目 进行 解释 
时 ， 应 注意 对 各 种 分 数 作 综合 性 的 解释 ， 不 可 赁 任何 单一 的 分 
教 来 判断 一 个 人 的 人 格 是 否 正常 。 只 有 这 样 ， 才 能 体现 投射 测 
验 的 初衷。 
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《一 ) 主题 统 觉 测验 的 形成 | 

主题 统 觉 测验 《Thematic Apperception Test， 简 称 TAT) 
是 另 一 种 与 罗 夏 克 墅 迹 测 验 齐 名 的 人 格 投射 测验 ， 它 是 由 美国 
哈佛 大 学 的 心理 学 家 葛 瑞 和 摩尔 根 于 1935 年 创制 的 ， 此 后 经 
过 三 次 修订 。TAT 是 一 种 窥探 受 测 者 的 主要 需要 、 动 机、 人 情 
绪 、 情 操 和 人 格 特征 的 方法 。 它 的 基本 原理 是 向 受 测 者 呈现 一 
系列 意义 相对 模糊 的 图 卡 ， 并 鼓励 他 按照 图 卡 不 加 思索 地 编 述 
故事 。 编 制 这 种 测验 的 基本 假设 是 : 人 们 在 解释 一 种 模糊 的 
情境 时 ， 总 是 倾向 于 将 这 种 解释 与 自己 过 去 的 经 历 和 目前 的 愿 
望 相 一 致 ; @ 在 面 对 测 验 卡 讲述 故事 时 ， 受 测 者 同样 利用 了 他 
们 过 去 的 经 历 ， 并 在 所 编造 的 故事 中 表达 了 他 们 的 感情 和 需 
要 ， 而 不 论 他 们 是 杏 意 识 到 这 种 倾向 。 

现在 使 用 的 TAT 是 经 莫 瑞 修订 过 的 第 三 版 。 第 三 版 的 全 
套 测验 包括 30 张 黑白 图 卡 和 1 张 空白 卡 ， 图 卡 的 内 容 有 的 为 
人 物 ， 有 的 为 景物 。 就 测验 内 容 而 言 ，TAT 比 之 罗 夏 克 墨 迹 
测验 的 组 织 和 意义 可 明 确 , 但 TAT 同 罗 夏 克 墨迹 测验 一 样 ， 
对 受 测 者 的 反应 不 加 任何 限制 .和 任 其 针对 图 卡 赁 自由 想象 去 编 
造 故事 。30 张 图 卡 分 为 四 组 ， 分 列 是 成 年 男性 组 〔 贡 )》、 成 年 
女性 组 〈(F) 、 儿 童 男性 组 〈《B) 和 儿童 女性 组 〈《G)。 其 中 有 的 
图 卡 适用 于 所 有 的 受 测 者 (只 用 数字 表示 频 序号 )， 有 的 图 卡 
只 适用 于 特定 年 龄 及 特定 性 别 的 受 测 者 (分别 用 数字 后 面 的 字 
母 标 明 》。 适 用 于 各 组 受 测 者 的 图 卡 均 为 19 张 ， 外 加 !1 张 空白 
卡 ， 共 20 张 图 卡 。 
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《二 》 实 施主 题 统 觉 测验 的 基本 程序 

1. 测验 环境 与 指导 诸 

测验 应 当 在 友好 的 气氛 当中 进行 ， 主 试 对 于 受 测 者 的 反应 
应 当 持 有 就 励 赞 许 的 态度 ; 测验 环境 布置 应 当 其 有 一 定 的 情 
调 ， 并 能 激发 人 的 想象 力 和 创造 和 性。 一般 的 指导 语 是 ,这 是 一 
个 想象 力 的 测验 ， 是 测验 你 的 智力 的 一 种 形式 。 我 将 让 你 看 一 
些 图片 ， 每 张 都 让 你 看 一 会 儿 。 你 的 任务 是 对 每 张 图 片 尽 你 所 
能 ， 编 一 个 带 有 戏剧 性 的 故事 ,说 明 是 什么 因素 导致 了 图 片上 
的 情景 ， 当 前 在 发 生 什 么 事情 ， 图 片上 的 人 正在 想 什么 ， 结 果 
会 怎么 样 。 你 可 以 用 5 分 钟 讲 一 个 故事 。 

2. 施 测 

在 实施 TAT 时 ,每 个 组 的 受 测 者 都 要 完成 两 个 系列 的 测 
验 。 第 1 ~ 10 号 图 卡 为 第 一 系列 ， 第 11 ~ 20 号 图 卡 为 第 二 系 
列 。 其 中 第 二 系列 图 卡 的 情境 更 加 抽象 ， 也 更 加 奇特 。 完 成 每 
个 系列 的 测验 任务 需要 1 小 时 的 时 间 ， 两 个 系列 之 间 至 少 要 间 
隔 一 天 。 在 测验 过 程 中 ， 主 试 要 记录 受 测 者 所 说 的 内 容 ， 如 果 
笔记 有 困难 ， 可 以 利用 录音 机 录音 ， 前 提 是 不 能 让 受 测 者 
发 觉 。 

3. 评分 

TAT 的 评分 分 两 部 分 ，-- 是 在 每 一 种 需要 变量 和 情绪 变 
量 上 的 分 数 ， 评 分 规则 是 根据 每 一 种 需要 或 情绪 的 强度 在 1 ~ 
5 之 间 记 分 ; 二 是 在 每 一 种 压力 变量 上 的 分 数 ， 评 分 规则 是 根 
据 每 一 种 压力 的 强度 在 1 ~5 之 间 记 分 。 最 后 在 每 一 变量 上 都 
得 到 两 个 分 数 ,， 一 是 总 体 平均 分 (AV), 二 是 分 数 的 分 
布 (R)。 

被 评定 的 主要 的 需要 变量 、 情 绪 变量 有 : 恭 顺 、 成 就 、 攻 
击 、 自 责 、 关 怀 、 顺 从 、 性 、 受 保护 、 进 取 、 归 属 、 自 主 、 和 予 
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盾 、 情 绪 变 化 、 泪 丧 、 焦 上 处、 怀疑 等 ; 被 评定 的 主要 的 压力 变 
量 有 : 归属、 攻击、 支配、 关怀、 拒绝 、 身 体 危 险 等 。 而 评定 
这 些 变 量 的 分 数 的 依据 是 受 测 者 在 所 编 的 故事 中 对 主人 公 的 行 
为 需要、 动机 、 人 情感 和 主人 公所 处 的 环境 的 描述 ， 以 及 整个 
收 事 所 反应 出 的 主题 的 性 质 。 

4. 测验 结果 的 解释 

解释 TAT 分 数 有 两 个 基本 假设 ; 第 一 个 假设 是 主人 公 的 
归 因 需要、 依 绪 状态 和 情感 ) 代表 卷 受 测 者 人 格 的 倾向 性 。 
这 种 倾向 性 是 受 测 者 的 过 去 和 他 所 预期 的 将 来 ， 即 : 他 已 做 
过 的 事 ; @ 他 想 去 做 的 事 ; 加 他 未 意识 到 的 一 些 基 本 的 人 格力 
量 ; 人 @ 他 当时 所 体验 的 情绪 和 情感 ; @@ 他 对 将 来 行为 的 预测 。 

第 二 个 假设 是 受 测 者 所 统 觉 的 环境 压力 也 代表 着 过 去 、 现 
在 和 将 来 ， 即 : 吃 他 真正 疯 到 过 的 情境 ; 四 他 出 于 愿望 或 恐惧 
而 想象 到 的 情境 ; @ 他 正在 统 觉 的 情境 ; @ 他 期 望 遇 到 的 或 害 
怕 和 直 到 的 情境 。 

主 试 应 当 根 据 上 述 两 个 基本 假设 参照 手册 中 对 各 种 需要 、 
依 绪 及 压力 变量 的 基本 描述 去 解释 受 测 者 投射 在 所 编 的 故 率 中 
的 人 格 状 态 和 特征 。 同 时 要 特别 在 和 需要、 情绪 的 力量 和 压力 的 
力量 之 间 进 行 强度 上 的 比较 ， 并 分 析 它 们 之 间 的 相互 作用 所 导 
致 的 结果 。 


练习 与 思考 


1. 试 综合 比较 自 陈 量 表 和 投射 测验 的 异同 。 

2 ” . 查阅 有 关 人 格 心理 学 著作 ， 讨 论 人 格 的 理论 研究 对 发 
展 人 格 测量 技术 的 作用 。 

3" . 查阅 有 关 文 献 ， 分 析 中 国人 格 测量 研究 的 现状 和 特 
点 、 并 论述 你 对 开展 人 格 测 最 与 研究 下 作 的 看 法 、 
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本 章 提 要 ， 

@ 义 点 及 其 测验 方法 

看 兴趣 及 职业 兴趣 测验 

全 态度 和 品德 的 常用 测量 方法 
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第 一 节 ”焦虑 测验 
一 、 叉 上 谍 概 述 


广义 地 说 ， 焦 处 是 一 种 情绪 。 从 强度 上 看 ， 它 涉及 到 轻重 
不 等 但 性 质 相 同 的 相互 过 渡 的 一 系列 情绪 ， 最 轻 的 是 不 安 和 担 
心 ， 上 其 他 是 害怕 和 惊 悦 ， 最 重 的 是 极端 恶 己 ， 从 快感 度 上 看 ， 
它 是 一 种 负 性 情绪 ， 给 人 的 体验 是 不 恰 快 的 ; 从 复杂 度 上 看 ， 
它 是 一 种 复合 情绪 ， 包 含有 悲哀 、 恶 惧 、 愤 怒 等 成 分 。 

如 果 程 度 恰 当 ， 并 主要 针对 某 些 特定 的 情境 ， 焦 虑 是 一 种 
正常 的 、 具 有 适应 意义 的 负 人 性 情绪 状态 ， 这 种 体验 的 作用 是 向 
个 体 报 告 对 外 界 情境 的 不 适宜 ， 驱 使 个 体 采 取 应 付 策略 或 行 
动 ， 去 改变 自身 的 处 境 ; 如 果 焦 虚 成 为 自由 浮动 的 、 泛 化 的 、 
或 程度 过 强 ， 便 会 成 为 一 种 异常 状态 。 焦 虑 可 以 是 一 时 的 情绪 
状态 ， 也 可 内 化 为 稳定 的 个 体 情 绪 特质 ， 这 样 的 人 性 格 十 分 脆 
弱 ， 而 严重 的 、 持 续 的 焦 不 ， 有 可 能 形成 病态 人 格 。 

焦 卡 的 表现 主要 在 3 个 方面 ， 一 是 行为 上 的 表现 ， 如 说 话 
唐 突 、 语 无 伦 次 、 皮 肤 变 红 、 脸 面 痉 挛 、 每 手 每 脚 、 结 结巴 
巴 、 思 绪 不 清 等 ; 二 是 生理 上 的 表现 ， 如 肌肉 伪 硬 、 全 身 或 局 
部 疼痛 、 呼 吸 不 畅 、 心 律 不 齐 、 寒 额 、 出 汗 、 排 尿 过 频 、 食 欲 
碟 退 、 失 有 眠 、 腹 演 拉 桨 等 ， 三 是 心理 上 的 体验 ， 如 烦躁 、 不 
安 、 恺 惧 、 担 心 等 。 

对 焦虑 研究 比较 早 的 要 属 精神 分 析 学 派 的 创始 人 弗 洛 伊 德 
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《S.Freud)， 他 不 仅 描述 了 焦虑 的 表现 ， 还 试图 解释 焦 上 叫 的 形 
成 过 程 。 弗 洛 伊 德 按 下 他 的 人 烙 结 构 理论 ， 认 为 焦虑 是 被 压抑 
的 性 紧张 即 里 比 多 (Libido) 的 释放 ， 由 于 里 比 多 的 能 量 不 多 
许 正 常 释 放 ， 一 旦 累积 就 要 求 自 动 释放 ， 这 便 会 形成 焦虑 或 焦 
虑 症状 也。 

对 焦虑 研究 起 推动 作用 的 是 毛 瑞 《Mowrer)@2@， 他 于 1939 
年 在 《心理 学 评论 ) 上 发 表 文 章 ， 用 刺激 反应 理论 来 解释 
莫 洛 伊 德 的 “ 焦 虚 ”。 他 把 焦虑 和 悉 惧 看 成 同 义 语 ， 并 把 恶 惯 
定义 为 产生 痛苦 反应 的 条 件 刺 激 ， 由 于 悉 展 反应 是 一 种 强烈 的 
不 愉快 的 体验 ， 因 而 可 看 成 是 激发 行为 和 强迫 新 习惯 获得 的 内 
驱 力 。-EE 瑞 把 精神 分 析 与 学 习 理 论 相 结 合 ， 使 焦 卡 的 研究 在 心 
理学 实验 室 研究 中 变 得 多 起 来 ,这 些 研 究 表明 ， 刺 惧 减 少 有 利 
于 激发 学 习 各 种 条 件 反射 的 动机 。 

受 以 上 观念 的 启发 ， 为 了 研究 焦虑 对 人 的 学 习 影 响 ， 泰 勘 
(Taylor) 从 MMPI 中 挑选 一 些 项 目 ， 编 制 了 显 性 焦虑 量 表 
( Manifest Anxiety Scale， 简 称 MAS)， 以 研究 个 体 的 焦虑 水 于 
(动机 差异 ) 对 髓 眼 条 件 反 射 学 习 的 影响 ， 即 把 MAS 测 得 的 
焦虑 得 分 看 成 是 一 种 内 驱 力 强度 。 

与 泰勒 同时 代 的 研究 者 还 有 曼 德 翰 (G. Mandler) 和 获 拉 
森 (S.Sarason)， 他 们 于 1952 年 发 表 了 《测验 焦虑 问卷 》 
(Test Anxiety Questionnaire， 简 称 TAQ)。 曼 德 勒 经 过 多 年 研 
究 ,， 还 提出 了 自己 的 焦虑 理论 。 他 认为 焦虑 是 在 人 处 于 无 助 感 
之 中 时 产生 的 ,，“ 阻 断 ”{interruption) 是 他 观点 的 核心 ， 任 何 





D Spielberger, C. D, (1975}) Axiety: State ~ tralt ~ process. ln C. D. 
Spielberger & I, G. Sarason (Eds), Stress and anxiety， VYo .1 New York: Hemi- 
sphere. pl16- 141， 

©@ Spielberger, €. D. {1975) Axiety; State 一 tralt - process. In C. D. 
Spielherger & I. G. Sarason (Eds), Stress end anxicty, Vo. 1 New York: Hemi- 
sphere. pll8~ 14]. . 
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情景 在 阻 断 了 或 威胁 着 要 阻 断 已 组 成 的 反应 系列 并 且 又 不 能 提 
供 任何 可 替代 的 反应 时 ， 就 将 引起 焦 虚 。 

卡特 尔 (R.B.Cattell) 和 同事 塞 欧 (I.H.Scheir) (1961) 
在 对 人 格 的 研究 方面 ， 亦 十 分 重视 焦点 的 研究 。 首 先 他 们 发 现 
正常 人 与 神经 症 患 者 在 焦 虚 上 有 差别 (当然 不 是 唯一 的 差别 ); 
其 次 ， 他 们 提出 了 两 种 焦虑 形式 ， 即 特质 焦虑 (trait anxiety) 
和 状态 焦 虚 (state anxiety)， 但 他 们 对 二 者 关系 的 认识 尚 不 是 
十 分 清楚 。 

对 焦 庶 状态 和 特质 研究 比较 深入 的 要 数 施 皮尔 伯 格 
(Spielberger) ， 他 提出 了 焦 虚 的 特质 一 一 状态 理论 。 所 谓 焦虑 
状态 是 指 由 紧张 、 担 优 、 神 经 过 敏和 扰 处 所 引起 的 主观 感受 和 
由 主 性 神经 系统 的 唤醒 (或 激发 ) 所 引起 的 生理 反应 ， 它 发 生 
于 某 一 时 刻 ， 有 一 定 的 强度 水 平 ， 但 持续 时 间 较 短 。 特 质 焦 上 处 
则 是 一 种 比较 稳定 的 人 格 特 质 ， 它 存在 着 个 体 差 异 ， 是 一 种 习 
得 的 行为 倾向 。 特 质 焦 虚 既 可 以 在 过 去 已 有 过 的 焦虑 状态 的 频 
率 和 强度 上 反映 出 来 ， 也 可 以 在 将 要 经 历 的 未 来 事件 的 焦虑 状 
态 上 反映 出 来 。 一 般 而 言 ， 焦 虚 特 征 越 明 显 ， 个 体 在 受到 不 胁 
的 情景 中 经 历 焦虑 状态 的 可 能 性 越 大 。 


二 、 人 焦虑 测验 


焦 感 各 种 各 样 ， 因 此 对 焦 处 的 测量 也 种 类 繁多 。 焦 虚 分 类 
有 以 下 几 种 : 按 焦点 的 跨 情境 程度 分 ， 有 一 般 焦虑 ( 即 特质 焦 
虚 ) 和 特定 焦 卡 (如 考试 焦 处 、 人 惰 场 、 社 会 交往 焦虑 等 ); 按 
意识 程度 分 ， 有 显 性 焦虑 (意识 到 ) 和 潜伏 焦虑 〈 意 识 不 到 ); 
按 其 效果 分 ， 有 积极 的 焦 虚 和 有 害 的 焦虑 。 由 于 焦 虚 测验 较 
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多 ， 这 里 仅 简要 介绍 几 种 。 


(一 ) 显 性 焦虑 量 表 (MAS) 

MAS 是 泰勒 @@ 按理 论 推 理 而 建构 的 量 表 ， 她 当时 编制 这 
个 量 表 主要 是 为 了 研究 焦 菩 对 学 习 的 动机 或 驱 力 作用 。 秦 勒 根 
据 卡 默 龙 (N.A.Cameron) (1947) 关于 慢性 焦虑 反应 所 描述 
的 显 性 焦虑 概念 ， 让 5 位 专家 (临床 工作 人 员 ) 根据 卡 默 龙 的 
定义 来 评价 MMPI 中 的 项 目 . 如 果 某 项 目 被 判断 能 反映 焦虑 
的 程度 达到 65% 以 上 ， 就 把 其 看 成 能 反映 显 人 性 焦虑 ， 按 照 这 
个 标准 ， 她 从 MMPI 中 获得 了 65 个 项 目 ， 另外 她 还 加 入 135 
条 缓冲 项 目 ， 这 些 项 目 也 经 过 了 5 位 专家 的 评定 ， 一 致 显示 它 
们 不 能 以 映 显 性 焦 目 ， 这 便 构 成 了 最 初 的 MAS。 随 后 ， 此 量 
表 又 进行 了 多 次 修订 ， 最 后 从 65 个 项 目 中 选取 了 50 个 项 目 ， 
把 缓冲 项 目 增加 到 225 个 ， 并 采取 了 MMPI 中 的 L、K 和 F 
量 表 中 的 项 目 。 关 于 该 测验 的 重 测 信和 度 ， 在 河 隔 3 周 时 皮尔 逊 
相关 系数 为 0.89， 间 隔 为 5 个 月 的 相关 系数 为 0.82， 间 隔 为 
9~17 个 月 的 相关 系数 为 0.81。 

为 了 使 MAS 适合 于 大 学 文化 程度 以 下 的 人 ， 泰勒 等 义 简 
化 了 焦 虚 项 目 中 的 某 些 难于 至 解 的 措 词 和 句子， 修订 后 有 28 
个 焦 虚 项 目 ， 而且 有 两 个 蔡 代 本 ( 复 本 )， 这 些 项 目 以 “是 否 
符合 自己 芍 状 况 ” 而 回答 。 


(二)《 状 态 一 一 特质 焦虑 量 表 》( 简 称 STAT) 

《状态 一 -特质 焦虑 量 表 》 (State—— Trait Anxiety Inven- 
tory) 是 由 施 皮尔 伯 格 等 人 根据 他 的 理论 编制 的 ， 首 版 STAI 
(X) 于 1970 年 问世 ， 作 者 于 1979 年 对 STAI (X) 进行 修订 ， 


QD 陈 仲 庚 等 : 《人格 心 理学 ) ,这 用 ， 辽 宁 人 民 出 版 社 1987 年 出 版 ， 第 112 
~113 页 . 第 384~389 页 。 
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1980 年 修订 版 称 为 STAI (YY)。 

该 问卷 的 内 容 包 括 两 个 部 分 ， 一 是 状态 焦 虚 ， 即 评定 人 位 
“现在 ”或 最 近 一 个 特定 时 间 内 的 感受 或 人 们 将 要 遏 到 特别 情 
景 时 的 感受 ; 二 是 特征 焦 虚 ， 即 评定 人 们 通常 情况 下 的 情绪 
体验 。 

STAI 不 仅 有 适合 初中 、 高 中 、 大 学 生 和 成 年 人 的 状态 与 
特质 焦虑 量 表 ， 另 外 还 开发 了 适合 于 小 学 生 的 儿童 状态 一 一 特 
征 焦虑 量 表 (简称 STAI C)。 状 态 一 一 特征 量 表 目 前 已 被 译 成 
30 多 种 语言 ， 在 全 世界 广泛 使 用 。 

叶 仁 敏 〈1990)Q@ 将 STAI (Y) 和 STAI C 在 中 国 进行 了 
和 修订。 该 量 表 是 自 陈 形 式 ， 适 用 于 个 别 或 团体 施 测 ， 无 时 间 限 
制 。 状 态 焦 韦 量 表 与 特征 焦虑 量 表 是 分 开 编 制 的 ,各 有 20 个 
题目 ， 分 别 做 每 个 测验 约 需 6 ~ 10 分钟， 一 起 做 ， 共 需 10 ~ 
20 分 钟 。 如 果 两 个 测验 都 做 ， 最 好 是 先 做 状态 焦虑 测验 ， 后 
做 特征 焦 虚 量 测验 ， 因 为 状态 焦虑 对 施 测 情境 敏感 ， 如 先 测 特 
征 焦虑 ， 会 形成 一 定 的 测试 气氛 ， 使 状态 焦 谍 测验 的 结果 受 影 
响 ， 而 有 研究 表明 ， 特 征 焦虑 量 表 几乎 不 受 所 给 情境 的 干扰 。 

STAI 的 项 目 计 分 是 4 级 计 分 ,对 焦虑 的 表述 有 正 及 两 个 
方面 ， 对 反 向 表述 ， 计 分 要 反 转 ， 这 是 在 计 分 时 应 注意 的 。 

STAI 按 状态 焦 虚 和 特征 焦虑 分别 为 大 学 生 、 中 学 生 以 及 
在 职 成 人 的 不 同性 别 群体 建立 了 常 模 ，30 天 间隔 的 重 测 信 上 度 
情况 如 表 15.1。 


个 叶 仁 丝 ; 《状态 一 一 特 质 售 感 让 表 (YY 版 ) 指导 手册 》，1990 年 出 版 


，368 : 心理 与 教育 测量 





表 15.1 STAI 重 测 信和 度 表 


状态 焦虑 ”特征 焦虑 | 状态 焦虑 ”特征 焦虑 
男 女 男女 | 男 女 男 女 





该 测验 与 相关 量 表 的 相关 在 0.41 ~ 0.85 之 间 ， 表 明 有 较 高 的 
同时 效 度 。 


(三 ) 测验 焦虑 导 表 

测验 焦 虚 (Test Anxiety) 也 译 为 考试 焦虑 ， 关 于 测验 焦 
虑 测量 研究 出 较 早 的 要 属 曼 德勤 和 萨 拉 森 ， 他 们 于 1952 年 发 
表 了 测验 焦虑 问卷 (Test Anxiety Questionnaire， 简 称 TAQ)。 
近年 来 ， 除 TAQ 外 ， 萨 拉 森 还 编制 了 测验 焦虑 量 表 和 测验 焦 
虑 问卷 。 这 里 主要 介绍 施 皮尔 伯 格 等 人 〈1972，1978) 编制 的 
测验 焦虑 量 表 (Test Anxiety Inventory， 简 称 TAI) 。 

施 皮尔 伯 格 的 TAI 对 焦 如 的 定义 还 是 根据 其 状态 一 一 特 
质 理论 ， 把 测验 焦虑 看 成 特质 ， 看 成 个 体 的 焦 卡 倾向 性 。 他 们 
把 测验 焦 处 也 分 成 两 个 部 分 、 即 多 因素 入 因素， 测验 焦虑 
特质 高 的 人 更 倾向 于 把 测验 情境 看 成 是 对 自我 的 威胁 ， 因 而 在 
测验 过 程 中 常 表现 出 紧张 、 忧 虚 、 神 经 过 敏 及 情绪 冲动 ， 从 而 
分 散 注意 力 ， 于 拢 学 生 对 智力 认 知 任务 的 顺利 完成 。 这 里 的 
机 因素 是 指 对 失败 结果 的 认 知 ， 而 下 因素 则 是 由 评价 的 紧张 
所 引起 的 自主 性 神经 系统 的 反应 。 

TAI 有 20 道 题 ， 要 求 被 测验 者 报告 他 们 在 测验 情境 中 通 
常 的 感受 按 4 种 程度 反应 。 例 如 ; 在 测验 中 . 我 非常 紧张 
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OD 从 不 ; @ 有 了 时; @ 经 常 ; 四 总 是 。 要 求 答题 者 根据 自己 的 情 
况 选 择 一 个 最 适合 自己 的 反应 。 油 验 可 以 个 别 或 团体 施 测 ， 没 
有 时 间 限 制 ， 中 学 生 和 大 学 生 都 可 在 8 ~ 10 分 钟 内 填 完 表 格 。 

该 测验 由 叶 仁 敏 《1990)@ 作 了 和 修订， 在 上 海 市 抽取 了 
535 人 向 样 本 ， 分 别 按 性 别 建立 了 大 学 生 、 大 学 新 生 、 业 余 职 
工大 学 生 和 高 中 生 的 常 模 ， 并 分 别 建 立 了 TAI 总 分 、 忧 虚 性 
( 即 名 因素 )、 人 情绪 性 ( 即 下 因素 ) 的 常 模 。 但 缺乏 信 效 度 
指标 。 


(四 ) 其 它 临床 焦虑 量 表 

关于 焦 虚 的 临床 量 表 很 多 ， 这 持 主 要 就 《贝克 焦 虚 量 表 》 
(Beck Anxiety Scale， 简 称 BAI) 和 《 汉 密 顿 焦 虚 量 表 》 
{Hamilton Anxiety Scale， 简 称 HAMA) 作 重 点 介绍 。 

1. 《贝克 焦虑 量 表 》 

《贝克 焦 虚 量 表 》 由 美国 A. T. 贝克 等 人 于 1985 年 纺 
制 ， 适 合 于 具有 焦 虚 症状 的 成 年 人 ， 主 要 是 测量 受 测 者 主观 感 
受到 的 焦虑 程度 。 有 研究 表明 ， 该 量 表 亦 适合 于 我 国 包 。 该 量 
表 有 21 个 题目 ， 采 用 4 级 计 分 方法 ，! 表示 无 焦 庶 症状 烦恼 ， 
2 表示 轻 度 (无 多 大 烦恼 )，3 表示 中 度 〈 尚 能 忍受 )，4 表示 
重度 《只 能 勉强 妨 受 )。 其 项 目 举例 如 下 : 

(1) 腿 部 颐 拌 。 

(2) 头 侧 。 

(3) 手 发 拌 。 

计 分 方法 较 简 单 ， 只 要 把 21 题 的 总 分 相 加 ， 按 了 = INT 
{1.19X) 取 整 ,转换 成 标准 分 即 可 ， 这 里 X 表示 总 分 粗 分 。 


@ 时 仁 竹 :《 状 态 一 一 特 伍 集中 县 表 〈Y 版 )》 指导 手册 》，1990 年 出 版 。 
i 《人 尼 本 飞 生 诉 定 是 家。 《中 国 心 理 卫生 》 杂志 社 ，1993 年 〈 增 刊 ) 出 版 . 
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其 效 度 指标 主要 有 两 种 : 一 是 取 60 名 焦虑 症 患 者 和 80 名 健康 
人 作 BAI 测 查 ， 对 测验 总 分 进行 了 检验 ， 发现 焦虑 症 患 者 得 
分 显著 高 于 健康 人 ; 二 是 对 60 名 焦虑 症 患 者 用 BAI 和 自我 评 
定 焦 目 量 表 (Zung，1971 年 编制 ) 进行 检查 ， 二 者 的 相关 为 
0.828。 

2.《 汉 密 顿 焦虑 量 表 CT。 

《 汉 密 顿 焦虑 量 表 》 由 汉 密 顿 1959 年 编制 ， 主 要 用 于 评定 
神经 症 和 其 他 病人 的 焦虑 严重 程度 。 

HAMA 与 其 它 焦 碟 量 表 不 同 ， 它 是 由 受过 训练 的 评定 员 
按照 14 个 症状 方面 进行 的 5 级 评定 (0 ~ 4， 数值 大 表示 严 
重 ) ， 除 第 14 项 〈 即 会 谈 时 的 行为 表现 ) 要 结合 观察 外 ， 其 余 
项 目 都 是 根据 病人 的 口头 叙述 进行 评分 ， 而 且 特 别 强调 受 测 者 
的 主观 体验 ， 其 内 容 包 括 焦 虚心 境 、 紧 张 、 害 怕 、 失 眠 、 身 体 
性 焦虑 、 心 血管 系统 等 症状 。 每 次 评定 ， 大 约 需 10 ~ 15 分 钟 。 

根据 全 国 精神 科 量 表 协 作 组 的 资料 ， 总 分 超过 29 分 ， 可 
能 为 严重 焦虑 ; 超过 21 分 ， 肯 定 有 明显 焦虑 ; 超过 14 分， 肯 
定 有 焦虑 ; 超过 7 分 ， 可 能 有 焦虑 ; 7 分 以 下 便 没 有 症状 。 一 
般 来 说 ， 经 过 10 次 以 上 的 训练 ,评定 者 有 极 好 的 一 致 性 。 上 
海 市 精神 卫生 中 心 曾 对 19 例 焦虑 症 上 患者 作 了 联合 检查 ， 两 个 
评定 员 之 间 药 一 致 性 很 高 ， 总 分 信和 度 为 0.93， 单 项 症状 信和 度 
为 0.83 ~1.00; 其 实证 效 度 也 比较 理想 。 


名 《心理 卫生 评定 量 表 》，《 中 国 心理 卫生 》 杂 志 社 ，1993 年 〈 增 刊 ) 出 版 ， 
第 191~225 页 。 
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第 二 节 ”兴趣 测验 
一 、 兴 趣 测 验 概 述 


兴趣 是 个 性 的 一 部 分 ， 是 大 们 从 事 各 种 活动 的 一 种 动力 。 
一 般 将 其 定义 成 “积极 探究 某 种 事物 的 认识 倾向 "@， 不 同人 
的 兴趣 有 不 同 的 特点 ， 这 些 差 异 表 现在 三 个 方面 : 一 是 兴趣 的 
指向 性 差异 ， 有 的 人 对 音乐 感 兴趣 ， 有 的 人 对 体育 感 兴趣 ， 有 
药 人 对 哲学 感 兴趣 ; 二 是 兴趣 的 广度 差异 ， 所 谓 广 度 是 指 的 数 
量 范围 ， 有 的 人 兴趣 广泛 ， 琴 棋 书 画 样 样 喜 欢 ， 有 的 人 兴趣 狭 
窗 ， 除 了 自己 的 专业 外 ， 对 其 它 内 容 一 概 不 感 兴趣 ; 三 是 兴趣 
的 稳定 性 差异 ， 有 的 兴趣 持续 时 间 很 短 ， 有 的 兴趣 是 一 辈子 不 
变 。 一 般 而 言 ， 要 进行 测量 的 兴趣 都 不 是 短暂 的 ， 因 为 稳定 性 
太 差 ， 测量 的 信 效 度 难 以 保证 。 

兴趣 测验 通常 要 考虑 两 个 基本 问题 ; 一 是 兴趣 的 客观 表 
现 ， 通 常 兴趣 不 是 凭空 存在 的 ， 它 往往 与 一 些 活动 分 不 开 ， 如 
果 一 个 人 对 体育 感 兴趣 ， 他 就 会 经 常 观看 电视 中 的 体育 新 闻 ， 
了 解体 育 明星 的 经 历 和 状况 ， 学 习 体 育 比 赛 的 知识 ， 看 体育 杂 
志 等 ; 二 是 兴趣 的 主观 表现 ， 兴 趣 是 一 种 主观 恶 望 ， 有 时 仅仅 
通过 活动 了 解 是 不 够 的 ， 比 如 有 的 学 生 本 不 喜欢 数学 ， 但 考虑 


-0 困 信 自 等 主编 : 《心理 学 辞典 》， 南昌 ,江西 科学 技术 出 版 社 出 版 ， 第 
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到 数学 成 绩 不 好 就 考 不 上 重点 中 学 ,为 此 他 也 可 能 刻苦 学 习 ， 
到 处 订 数 学 辅导 资料 ， 找 老师 问 数学 问题 等 。 只 有 主观 上 喜 
欢 ， 并 在 客观 上 有 所 表现 者 ， 才 能 准确 地 判断 其 兴趣 所 在 。 

目前 ， 心 理 测 验 学 家 对 兴趣 的 研究 很 多 ， 但 主要 集中 在 比 
较 稳 定 的 职业 兴趣 方面 。 职 业 兴 趣 测验 的 历史 可 以 追溯 到 
1927 年 ， 当 时 斯 特 朗 (FE.K.Strong) 编制 了 《斯 特 朗 职业 兴 
趣 调 查 珍 》 {简称 SVIB)， 此 后 ， 库 德 (G.F.Kuder) 编制 了 
《 库 德 爱好 记录 表 》。 这 两 个 量 表 都 是 严格 按 心理 测量 的 要 求 构 
建 的 。 与 这 两 者 不 同 的 是 霍 兰 德 在 50 年 代 末 编制 的 《职业 爱 
好 问卷 》 {简称 VPI) ， 他 把 职业 兴趣 分 成 6 个 领域 ， 与 职业 兴 
趣 相应 ， 把 职业 也 分 成 6 个 职业 领域 ， 可 以 根据 被 试 的 反应 在 
职业 分 类 表 中 确定 职业 兴趣 。 

除 上 述 3 种 职业 兴趣 测验 外 ， 职 业 兴 趣 测 验 后 期 亦 有 一 定 
的 发 展 ， 但 基本 上 没有 什么 实质 性 的 突破 ， 只 不 过 是 在 做 些 完 
善 工作 而 已 。 比 如 卉 加 一 些 职业 量 表 ， 增 加 问卷 的 有 效 性 指 
标 ， 寻 求 提高 测验 效 度 的 办 法 等 等 ， 其 中 比较 有 影响 的 主要 有 
白 纳 德 (Brainard) 《职业 爱好 问卷 》 、 美 国 大 学 人 学 考试 中 心 
(简称 ACT) 《兴趣 问卷 } 了 、 鲁尼 波 格 (Lunneborg) {1968) 
编制 的 《职业 兴趣 问卷 》 (简称 VII)， 限 于 篇 幅 ， 这 里 不 作 
介绍 。 


四 龙 立 荣 ; 《介绍 因 外 四 个 著名 的 取 业 兴趣 届 难 》， 北京 .《 社 会 心理 研究 》、 
1991 个 第 3 期 、 第 45 -~ 
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二 、 常 见 的 职业 兴趣 测验 


(一 )《 斯 特 朗 职业 兴趣 问卷 9 

《斯 特 朗 职业 兴趣 问卷 》 是 世界 上 最 早 的 兴趣 问卷 ， 它 是 
根据 经 验 编制 的 测验 。 其 基本 做 法 是 这 样 的 ; 取 两 组 被 试 ， 一 
组 代表 专门 从 事 某 种 工作 而 且 喜 欢 该 职业 的 所 谓 标 准 职业 人 
员 ， 而 另 一 组 则 代表 一 般 人 ， 让 两 组 受 测 者 对 测验 项 目 进 行 诸 
如 喜欢 、 无 所 谓 和 不 喜欢 的 选 却 反应， 由 于 这 些 人 有 差异 ， 故 
回答 不 尽 相 同 。 斯 特 朗 把 这 些 能 反映 二 者 差异 的 项 目 合 在 一 
起 ，、 便 构成 某 个 标准 职业 的 兴趣 测验 的 项 目 集 ， 不 同 的 职业 有 
不 同 的 项 目 集 组 合 ( 各 职业 有 些 项 目 相 同 )， 把 这 些 不 同 的 项 
目 合 在 一 起 ， 就 构成 了 该 兴趣 问卷 的 总 项 目 。 为 了 确定 某 个 人 
的 职业 兴趣 ， 将 某 人 对 所 有 项 目的 反应 分 别 按 各 种 职业 标准 量 
表 计 分 ， 视 其 得 分 的 高 低 ， 最 终 确 定 其 职业 兴趣 。 

由 于 《 库 德 爱好 记录 表 》 的 产生 和 发 展 ， 它 产生 的 影响 也 
越 来 越 大 ,坎贝尔 (D.Campbell) 于 1968 年 把 库 德 量 表 中 的 
同 质 性 量 表 ( 比 具体 职业 大 的 职业 领域 量 表 ) 引 人 了 《斯 特 朗 
职业 兴趣 问卷 )， 另 外 在 1972 年 ， 坎 贝尔 又 把 替 兰 德 的 6 大 职 
业 领 域 也 引 人 了 《斯 特 朗 职业 兴趣 问卷 )。 这 样 ， 该 量 表 结 采 
便 可 以 在 三 个 层次 上 解释 了 : 第 一 个 层次 为 稚 兰 德 的 一 般 职业 
主题 (简称 GOT); 第 二 层 为 相互 异 质 的 同 质 性 量 表 《简称 
BIS); 第 三 层 为 职业 量 表 。 下 面 就 《斯 特 朗 一 一 坎贝尔 兴趣 问 


. 中 龙 立 荣 :《 介 绍 国外 下 个 著名 的 职业 兴 需 测验 )、 北 京 、《 社 会 心理 研究 》， 
1991 年 第 3 期 , 第 45~50 页 
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卷 》 (简称 SCII) 1985 年 版 作 一 介绍 。 

SCII {1985) 有 325 个 项 目 ， 这 些 项 目的 内 容 涉及 职业 、 
学 校 课程 、 活 动 、 闲 眼 活 动 、 人 的 类 型 等 ， 要 求 对 每 个 项 目 作 
喜欢 、 无 所 谓 或 不 喜欢 的 问答 ， 例 如: 


职业 : L( 彰 欢 ) I (无 所 请) 了 (不 喜欢 ) 
电工 L I D 
学 校 课程 : 
天 文学 L I D 
闲 暖 活动 : 
滚 木 球 戏 L . I D 
活动 : 
观看 体育 的 电视 工 I D 


SCIIT (1985) 共有 264 个 量 表 ,包括 6 个 GOT 量 表 ，23 
个 BIS 量 表 ，207 个 职业 量 表 {代表 106 种 职业 )，2 个 特殊 量 
表 (学 业 满 意 度 和 内 外 倾 量 表 )，26 个 管理 指标 (一 是 遗漏 指 
标 ， 二 是 奇特 反应 指标 ， 三 是 对 上 述 7 个 方面 以 及 所 有 这 些 方 
面 回答 的 百分数 ， 共 24 个 指标 )。 这 里 主要 介绍 职业 量 表 、 基 
本 兴趣 量 表 和 一 般 职业 主题 的 情况 。 

SCII 中 的 职业 量 表 基本 上 是 追 循 前 面 介 绍 的 经 验 量 表 编 
制 思路 ， 在 被 测 者 答题 后 ， 分 别 按 不 同 的 职业 量 表 计 分 标准 计 
分 ,然后 转化 成 常 模 分 数 ， 按 常 模 分 数 的 高 低 ， 确 定 受 测 者 襄 
欢 的 职业 和 不 喜欢 的 职业 。BIS 的 编制 方法 是 把 所 有 测验 项 目 
求 两 两 相关 ， 然 后 将 高 相关 的 项 目 合 在 一 起 。GOT 与 上 述 二 
者 不 同 ， 它 是 理论 建构 的 ， 即 先 给 各 种 类 型 下 定义 ， 然 后 再 根 
据 定 义 来 确定 每 个 类 型 的 项 目 ， 每 个 同 质 的 GOT 量 表 共 有 20 
个 项 目 。 每 个 层次 的 嵌 套 是 通过 相关 的 办 法 确定 的 ， 即 被 包括 
的 低 一 级 量 表 都 与 GOT 之 间 有 高 相关 ， 其 具体 表现 示例 如 下 
表 : 
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表 15.2 SCII 的 三 种 水 平 量 表 


GOT 


现实 型 


研究 型 


艺术 型 


社会 型 


企业 型 


传统 型 


BIS 


医学 
医疗 服务 
音乐 /戏剧 
艺术 
写作 
教学 
社会 服务 
体育 
持家 艺术 
宗教 
公开 演讲 
法 律 /政治 
经 商 
售 货 
商业 管理 


办 公 室 事务 


职业 最 表 
农民 


运动 教练 


军官 


牙科 医生 


乐师 

艺术 教师 、 建 筑 师 
律师 一 

外 语 教 师 

学 校 领导 


家 政 经 济 学 教师 


会 计 、 银 行 工作 人 员 
数学 教师 、 秘 书 
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地 理学 家 、 化 学 家 
”计算 机 程序 专家 


商店 经 理 、 投 资 经 理 
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根据 被 试 测验 的 结果 ， 将 其 放 在 所 有 职业 量 表 、 基 本 兴趣 量 表 
和 一 般 职业 主题 上 计 分 ， 即 可 得 出 该 受 测 者 的 职业 兴趣 的 总 体 
状况 。 一 般 来 说 ， 职 业 量 表 中 ， 如 果 标 准 分 在 45 分 以 上 ， 该 
受 测 者 被 认为 与 从 事 这 一 职业 的 人 很 类 似 ， 如 果 标 准 分 低 于 
25 分 ， 则 认为 与 从 事 这 一 职业 的 人 很 不 相似 ， 而 26 分 ~44 分 
则 被 认为 没有 提供 多 少 信 息 ， 最 后 给 出 很 相似 和 很 不 相似 的 职 
业 及 分 数 。 基 本 兴趣 量 表 (23 个 ) 和 一 般 职 业主 题 (6 个 ) 的 
结果 呈现 如 表 15.3 和 15.4 所 示 : 


表 15.3 基本 兴趣 最 表 结 果 呈 现 示意 


量 表 标准 分 说 明 
农业 39 相当 低 
自然 40 相当 低 
冒险 48 中 等 
教学 60 相当 高 
宗教 54 中 等 
办 公 室 事务 40 相当 低 


表 15.4 一 般 职业 主题 量 表 结 果 星 现 示意 


量 表 标准 分 说 明 
现实 型 38 稍 低 
研究 型 46 ”中 等 
艺术 型 57 中 等 
社会 型 55 中 等 
企业 型 51 中 等 


传统 型 41 稍 低 
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(二 )《 库 德 职业 兴趣 调查 表 》{ 简 称 KOIS}0 

库 德 于 1934 年 编制 了 《 库 德 爱好 记录 表 》， 其 基本 思想 
是 ;把 所 有 职业 分 成 10 个 兴趣 领域 ， 然 后 确定 与 之 相应 的 10 
个 同 质 性 量 表 ， 受 测 者 的 结果 按 这 10 个 量 表 记 分 ， 通 过 得 分 
高 低 确定 感 兴 趣 或 不 感 兴 趣 的 职业 领域 。 由 于 这 种 办 法 所 测 得 
的 结果 比较 笼统 ， 为 此 ， 库 德 从 SVIB 中 吸取 了 职业 量 表 的 思 
想 ， 在 1966 年 编制 了 《 库 德 职业 兴趣 调查 表 》( 简 称 KOIS)， 
1985 年 ， 他 再 次 修订 了 KOIS、 这 里 就 1985 年 修订 版 作 些 介 
绍 。 

KOIS (1985) 由 100 组 3 个 项 目 构成 的 强迫 选择 项 目 组 
构成 ， 这 种 形式 可 以 避免 反应 定 势 ， 其 形式 举例 如 下 


项 目 反应 
修理 汽车 马达 M (最 喜欢 ) 
计算 平均 成 功率 M 
挨家 挨户 卖 杂 志 M 
在 合唱 队 中 唱歌 M 
在 医院 散 义 务工 M 
到 森林 中 野营 M 


在 职业 量 表 或 大 学 专业 量 表 的 记分 上 ， 库 德 的 记分 办 法 与 斯 特 
朗 不 同 ， 他 主要 是 不 取 对 照 组 ， 直 接 把 个 人 的 成 绩 与 标准 职业 
组 或 大 学 专业 组 的 测验 成 绩 进 行 比较 ， 这 里 的 大 学 专业 量 表 是 
斯 特 良 量 表 所 没有 的 。 如 果 受 测 者 与 哪个 标准 职业 组 或 大 学 专 
业 组 的 分 数 接近 ， 就 说 明 其 对 该 职业 或 专业 感 兴趣 ， 确 定 感 兴 
趣 职 业 或 专业 的 标准 是 最 高 相似 系数 之 下 相差 0.06 以 内 的 职 


人 R.L. 骤 代 克 : 《心理 与 教育 的 测量 和 评价 {下 册 )》， 北 京 ， 人民 教 育 出 
版 补 出 版 . 第 120 ~ 132 页 、 
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业 或 专业 ， 一 般 呈 现 10 个 职业 或 专业 。 下 表 是 某 一 个 攻读 心 
理 测 基 学 的 年 轻 女 性 的 结果 : 


球 15.5 KOIS 职业 或 大 学 专业 兴趣 测试 结果 只 


职业 量 表 女 性 常 模 大 学 专业 女性 常 模 
1. 心理 学 家 0.66 ”1. 心理 学 0.61 
2. 诊疗 心理 学 家 0.63 2. 生物 学 0.60 
3. 计算 机 程序 编制 员 “ 0.61 3. 英语 0.59 
~ 4. 外 语 0.58 
4. 精神 病 社会 服务 工作 者 0.59 5. 历史 0.55 
5. 社会 调查 工作 者 0.57 
6. 书店 经 理 0.57 6. 保健 0.52 
7. 保健 治疗 家 0.54 7. 数学 0.52 
8. 医疗 服务 工作 者 0.54 ”8. 普通 社会 科学 0.51 
9. 中 学 理科 教员 0.53 9. 基础 教育 0.50 


10. 学 校 社 会 服务 工作 者 0.53 ”10. 政治 学 0.50 
注 : 虞 线 以 上 为 最 感 兴趣 者 。 


除 职业 和 大 学 专业 量 表 外 ，KOIS 还 有 职业 兴趣 评估 和 个 
人 匹配 部 分 。 职 业 兴 趣 评 估 主 要 是 过 去 的 10 个 同 质 性 量 表 ， 
是 对 传统 内 容 的 一 个 修订 本 ， 按 百 分 等 级 呈现 结果 ， 男 女 常 模 
分 开 ， 分 高 、 中 、 低 三 级 职业 兴趣 领域 ， 其 标准 为 : 高 者 为 百 
分 等 级 在 75 以 上 ， 低 者 为 百 分 等 级 在 25 以 下 ， 中 者 在 高 低 
之 间 。 

对 于 KOIS 而 言 ， 在 SCII 中 ， 由 于 其 职业 量 表 按 经 验 法 


OD L. 桑 代 克 : 《0 理 号 教育 的 油 癌 宙 蛋 从 (下 册 )》， 北 京 ， 人 民 教 育 出 
版 社 出 版 、 第 12021 132 页 
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建构 ， 它 对 标准 职业 组 的 特点 及 其 与 其 它 职业 组 的 区 别 很 清 
楚 ， 因 此 区 分 能 力 较 强 。 而 KOIS 只 研究 各 种 职业 的 共同 点 ， 
而 且 从 事 各 种 职业 的 人 有 许多 共同 之 处 ， 故 一 些 相差 很 大 的 职 
业 所 得 分 数 却 比 较 接 近 。 另 外 在 同 质 性 测验 中 ， 同 质 性 职业 内 
部 还 具有 许多 异 质 性 ， 比 如 建筑 师 通 常 有 绘画 、 制 图 、 解 决 机 
械 和 数学 问题 的 爱好 ， 同 时 也 有 很 多 不 同 的 爱好 ， 如 仔细 考察 
建筑 师 的 工作 就 会 发 现 ， 这 个 人 可 能 襄 欢 设计 、 建 筑 管 理 ， 而 
另 一 个 却 喜 欢 从 事 教 学 或 建筑 摄影 。 为 了 解决 这 个 问题 ， 库 德 
提出 了 所 请 个 人 匹配 ， 即 把 一 个 人 单独 地 与 某 职业 中 的 不 同 个 
人 样 榜 进 行 匹配 ， 使 对 个 人 的 兴趣 进一步 深入 、 具 体 。 


(三 ) 自我 指导 问卷 

继 斯 特 朗 和 库 德 之 后 ， 在 兴趣 问卷 编制 领域 比较 有 建树 的 
当 属 起 兰 德 。 他 从 50 年 代 开 始 进行 这 方面 的 研究 。 

1970 年 ， 替 兰 德 编制 了 第 -- 个 《自我 指导 问卷 》 (Self 一 
Directed Search ， 简 称 SDS)，1985 年 又 对 其 做 了 修订， 这 里 
简单 介绍 其 内 容 。 雹 兰 德 的 SDS 主要 由 两 部 分 构成 ， 一 是 职 
业 类 型 测验 ， 另 一 是 职业 搜寻 表 。 其 基本 思想 是 先 测定 自己 的 
兴趣 特性 (也 叫 人 格 特点 )， 然 后 根据 自己 的 人 格 特点 查找 适 " 
合 自 己 的 职业 。 很 显然 ， 职业 人 格 类 型 或 特点 与 职业 之 间 有 一 
种 内 在 的 联系 。 

霍 兰 德 把 人 格 分 成 6 种 类 型 : 现实 型 、 研 究 型 、 艺 术 型 、 
社会 型 、 企 业 型 、 传 统 型 。 每 个 人 的 人 格 都 是 这 6 个 维度 按 不 
同 的 程度 组 合 而 成 的 。 与 此 相应 ， 职 业 所 需要 的 特性 与 这 6 个 
维度 也 密切 相关 。 为 了 标定 个 人 的 兴趣 特性 或 人 格 特性 ， 震 兰 
德 采用 3 个 维度 来 标定 。 这 3 个 维度 的 排列 方式 称 为 《职业 三 
字母 码 》， 如 RIA、ASE 等 等 。 这 样 ， 经 过 第 一 部 分 测验 所 确 
定 的 三 个 字母 码 就 可 以 和 职业 拥 寻 表 中 的 三 个 字母 码 匹 瑟 了 。 


”上 工艺 课 
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下 面 我 们 简单 介绍 一 下 这 个 测验 的 基本 内 容 和 实施 过 程 。 
首先 ， 要 求 根 据 个 人 的 经 历 或 感觉 ， 确 定 自己 感 兴趣 的 职业 ， 
以 便 与 后 面 测验 的 结果 进行 比较 。 第 二 步 即 是 进行 测量 。 这 个 
测验 有 4 个 方面 内 容 : 活动 、 能 力 、 职 业 和 能 力 自我 评价 。 每 
个 方面 的 内 容 都 按 6 种 类 型 以 R-I-A-S-E-C 的 顺序 排 
列 。 而 且 每 个 方面 的 各 种 类 型 的 题目 的 数目 是 相等 的 《能 力 自 
我 评价 例外 ， 它 主要 是 进行 6 种 类 型 活动 能 力 水 平等 级 评估 )。 
这 些 项 目 不 是 随机 排列 的 ， 它 是 按 6 种 类 型 分 别 集合 在 一 起 。 
下 面 是 其 测验 部 分 的 几 个 样 例 ; 


活动 部 分 样 例 : 
R L 
装修 电器 工 
修理 汽车 工 
L 


.= 一 


能 力量 表 样 例 : 
让 Y 
会 一 种 乐器 了 
能 够 独 喇 Y 
能 制造 陶器 Y 


世 荆 之 


职业 量 表 样 例 : 

E Y 
旅馆 经 理 YY 
推销 员 了 
广告 总 经 理 Y N 


用 呈 芝 


I 

研究 科研 课题 
在 实验 室 工作 
上 物理 课 


Frre 


5 
擅长 向 别人 解释 事情 
能 够 化 个 好 主人 
擅长 判断 人 的 性 格 


C 

记 帐 员 
高 校 教师 
税务 专家 


一 


< < 


Y 
Y 
Y 


Y 


另 吕 吕 


甩 之 有 之 


N 


注 ; 工 代表 喜欢 、D 代表 不 喜欢 、Y 代表 有 能 力 或 育 欢 、 


第 十 五 章 ”其它 心理 与 教育 测验 381 ， 
“NN 代表 没 能 力 或 不 喜欢 


第 三 步 即 确定 职业 玛 。 具 体 方法 是 这 样 的 : 把 所 有 肯定 的 问答 
按 6 种 类 型 记 总 分 ， 取 最 大 的 3 个 维度 按 由 大 到 小 的 顺序 排列 
即 可 。 第 四 步 即 根据 这 个 职业 三 字母 码 在 职业 搜寻 表 中 找 职 
业 ， 并 将 所 选取 的 职业 按 自己 喜欢 的 顺序 来 排列 ， 因 为 每 一 类 
往往 不 止 一 个 职业 ， 而 对 职业 的 喜欢 又 有 所 不 同 。 如 打 这 些 职 
业 都 不 理想 ， 则 可 以 将 三 字母 码 重新 排列 ， 然 后 再 在 职业 表 中 
查找 ， 这 样 ， 将 喜欢 的 职业 按 顺 序 排列 。 一 般 说 这 些 职业 会 与 
前 面 填 的 理想 的 职业 基本 一 致 、 


第 三 节 ”态度 和 品德 测量 


(一) 态度 概述 

态度 是 指 个 体 对 人 或 事 所 持 有 的 一 种 较为 持久 而 又 一 致 的 
心理 倾向 ， 它 包括 认识 、 情 感 和 行动 倾向 三 种 成 分 。 这 三 种 成 
分 起 作用 是 有 先后 的 ， 通 常 是 认识 在 先 ， 它 的 作用 是 形成 对 人 
或 事物 的 了 解 、 认 识 、 看 法 ， 并 在 此 基础 上 形成 一 定 的 评价 ， 
紧 接 着 是 情感 ， 最 后 是 意志 行动 倾向 。 有 些 时 候 ， 认 识 、 人 情 
感 、 行 动 倾向 是 同步 、 和 谐 一 致 的 ， 有 时 从 认识 到 行动 倾向 却 
有 一 定 距 离 。 尽 管 态度 相对 稳定 ， 但 也 不 是 不 可 改变 的 ， 比 怒 
教育 、 广 告 在 许多 情况 下 就 是 要 改变 人 们 的 态度 。 
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态度 的 准确 评价 至 少 有 以 下 几 种 功能 : 一 是 了 解 人 们 对 各 
种 不 同事 物 的 态度 ; 二 是 评价 宣传 工具 在 改变 人 们 的 态度 中 的 
效果 ; 三 是 评价 教育 工作 的 成 效 。 由 于 态度 随 人 和 事物 的 不 同 
而 存在 着 很 大 差异 ， 因 此 态度 测量 更 多 的 是 提供 一 种 科学 的 测 
量 思路 和 方法 ， 而 不 在 乎 形成 某 种 固定 的 测验 ， 这 里 主要 介绍 
态度 测量 的 几 种 常见 方法 。 


(二 ) 态度 测量 方法 

1.《 等 距 量 表 》 法 

这 种 方法 由 瑟 斯 顿 1929 年 创立 ， 故 又 叫 《 瑟 斯 顿 重 表 》。 
他 的 基本 思路 是 : 围绕 某 一 态度 主题 ， 选 取 能 代表 该 方面 的 态 
度 语 或 项 目 若 干 ， 由 专家 对 这 些 项 目 进行 等 级 排列 ， 并 把 专家 
排列 的 结果 进行 项 目 分 析 ， 保留 有 效 的 项 目 以 及 根据 专家 的 反 
应 确定 项 目的 等 级 。 要 了 解 某 个 受 调查 者 的 某 方面 态度 ， 只 需 
看 其 对 该 量 表 的 反应 ， 最 后 运用 对 全 部 项 目 反 应 结果 (等级) 
求 中 位 数 ， 以 中 位 数 表 示 该 受 调 查 者 的 态度 状况 。 这 里 比较 困 
难 的 工作 有 两 项 ， 一 是 项 目的 收集 和 编制 ， 二 是 项 目的 好 坏 及 
等 级 的 确定 。 

(1) 项 目的 编辑 : 项 目 编辑 首先 是 要 找到 足够 的 态度 语 ， 
一 般 在 预 试 时 要 有 100 ~ 200 句 。 常 用 的 编 题 办 法 有 这 样 几 条 ， 
第 一 是 查阅 相关 的 文献 ; 第 二 是 请 来 自 不 同 团体 的 成 员 写 出 他 
们 对 特定 事物 的 看 法 ; 第 三 是 请 相关 问题 的 研究 专家 编写 题 
目 。 在 选 题 过 程 中 ， 特 别 应 注意 找 够 中 间 等 级 的 态度 语句 ， 通 
常 两 种 极端 的 态度 语 比较 多 而 且 容 易 编 。 其 次 要 使 态度 语 的 表 
达 合乎 以 下 几 点 要 求 : 第 一 是 措 词 简单 ， 语 义 易 于 了 解 ! 第 二 
是 每 一 态度 须 针 对 本 研究 主题 表示 一 个 确切 的 态度 。 比 如 下 面 
编辑 的 反应 妇女 在 经 济 界 的 地 位 的 项 月 就 比较 好 : 

重 ”结婚 后 ， 如 夫妇 各 有 工作 ， 生 活 更 为 快乐 。 
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者 ”妇女 不 应 该 依 千 男子 。 

全 ”妇女 的 合适 工作 是 管理 家 务 。 

(2) 确定 项 目的 好 坏 及 计 分 标准 : 为 了 确定 上 述 项 目的 优 
劣 与 计 分 标准 ， 常 见 的 做法 是 请 专家 对 前 面 编辑 的 项 目 进行 等 
距 排列 ， 由 最 不 赞成 到 最 灶 成 ， 通 常 等 级 数 不 能 太 少 ， 一 般 在 
7~13 之 间 。 如 用 1 表示 最 不 赞成 ，13 表示 最 赞成 ，2 表示 不 
赞成 ， 程 度 仅 次 1; 12 则 表示 赞成 ， 程 度 仅 次 于 13， 其 余 类 
推 。 由 于 评定 专家 不 止 一 人 ， 因 此 评判 的 结果 可 能 不 一 致 ， 如 
何 根据 专家 们 的 评判 来 决定 项 目的 好 坏 和 等 级 呢 ? 假如 这 里 有 
一 个 按 11 个 等 级 排列 的 项 目 ， 各 专家 判断 的 等 级 的 累计 百 分 
数 如 下 图 所 示 : 


1.00 
.90 
.80 

S| 
.60 
.50 
.40 


潍 汪 吏 寺 小 





: 1 ! 
| WE WE 56 789 10 11 
最 不 赞成 最 费 成 


图 15.1 态度 语 评价 的 累计 百分比 分 布 
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， 通过 该 图 可 氛 得 到 两 个 结果 ， 一 是 该 项 目的 量 表 值 ， 二 是 
该 项 目的 鉴别 力 。 项 目的 量 表 值 是 以 项 目 票 计 分 布 的 中 位 数 
( 即 50 色 累计 百分比 所 对 应 的 等 级 )， 而 项 目的 鉴别 力 以 Q 值 
{四 分 差 ) 表示 ， 由 累计 百 分 图 上 的 25% 和 775% 的 点 所 对 应 的 
等 级 Q! 和 Qi 之 差 作为 大 小 ， 即 Q = Q3 - Q1。 一 般 而 言 ，Q 
值 傅 小， 表示 评 判 专家 的 态度 愈 一 致 ， 即 态度 语 愈 不 含糊 ， 质 
量 好 ; Q 秆 愈 大 ， 则 说 明 该 态度 语 愈 不一致， 质量 差 ，Q 值 大 
于 2 的 态度 语 应 淘汰 。 

态度 量 表 经 由 上 述 过 程 后 ， 把 合乎 要 求 的 态度 语 合 在 一 起 
便 构 成 了 一 个 态度 量 表 ， 这 个 量 表 的 每 个 项 目 均 有 等 级 值 。 要 
知道 某 受 测 者 的 态度 ， 只 要 求 受 测 者 作 费 成 与 不 疯 成 的 回答 。 
由 于 受 测 者 的 赞同 反应 不 只 一 项 ， 这 就 有 一 个 如 何 和 估计 受 测 者 
的 态度 等 级 的 问题 ， 通 常 的 仇 法 是 把 被 测 者 表示 同意 的 项 目 依 
分 数 高 低 排 列 ， 然 后 求 出 中 位 数 ， 以 居中 项 目的 量 表 值 作为 该 
受 测 者 的 态度 的 估计 和 值 。 

《 瑟 斯 顿 量 表 》 的 信和 度 一 般 在 0.8 ~ 0.9 之 间 。《 瑟 斯 顿 量 
表 》 的 不 是 主要 有 以 下 几 点 : 第 一 是 制定 过 程 复 杂 ， 选 项 目 、 
找 专家 评价 都 很 困难 ;第 二 是 用 中 位 数 代表 态度 等 级 不 一 定 合 
适 ， 因 为 中 位 数 相同 ， 但 其 余 的 反应 未 必 一 致 ; 第 三 是 项 目的 
挑选 和 等 级 确定 以 专家 的 评判 为 依据 ， 专 家 的 意 旬 能 否 代表 一 
般 人 值得 怀疑 ; 第 四 是 等 距 量 表 事实 上 是 否 真 正 等 距 ， 亦 把 握 
不 准 。 尽 管 如 此 ,《 瑟 斯 顿 量 表 》 在 主题 比较 清楚 、 调 查 范 围 
不 广 的 态度 问题 调查 上 效果 还 是 比较 好 的 。 

2. 《利克 特 量 表 》 法 

《利克 特 量 表 》 法 是 由 利克 特 (R.A.Likert) 于 1932 年 提 
出 来 的 ， 是 总 加 量 表 中 最 常用 的 一 种 。 它 的 思路 与 《 琴 斯 顿 量 
表 》 不 同 、 在 《 琴 斯 顿 量 表 》 中， 认为 量 表 中 的 每 一 个 项 目 应 
尽 可 能 反映 不 同 的 态度 等 级 ， 因 此 主张 请 专家 将 项 目 分 成 等 


第 十 五 间 ”其它 心理 与 教育 测验 。 385 ， 


级 , 《利克 特 量 表 》 法 则 假定 每 一 项 目 或 态度 语 都 具有 同等 的 
量 值 ,项目 之 间 ， 没 有 差别 担 值 ; 另外 受 测 者 的 反应 也 不 相 
同 , 在 《 苇 斯 顿 量 表 》 中 ， 受 测 者 只 对 态度 量 表 中 的 项 目 管 赞 
成 与 不 赞成 ， 而 《利克 特 量 表 》 中 要 求 受 测 者 对 每 一 个 项 目的 
态度 强 弱 按 五 级 或 六 级 反应 ; 最 后 ， 在 结果 的 估计 上 二 者 的 办 
法 也 不 相同 ,《 瑟 斯 顿 量 表 》 用 的 是 中 数 作 代表 ， 而 《利克 特 
量 表 》 用 的 是 受 测 者 在 所 有 项 目 中 评定 等 级 的 总 和 。 

《利克 特 量 表 》 法 的 项 目 表述 、 等 级 评定 和 项 目 筛选 上 很 
有 特色 ， 这 里 着 重 介绍 如 下 : 

(1) 项 目 表述 与 等 级 评定 : 《利克 特有 量 表 》 在 项 目 表述 上 
有 两 种 方式 ， 即 正面 与 负面 陈述 ; 而 在 等 级 评定 上 都 是 相同 的 
等 级 数 ， 只 是 在 总 计 分 上 要 考 上 处 业 倒 ， 保 持 标 准 同 一 ， 即 负面 
陈述 要 把 分 数 倒转 。 假 如 某 态 度 测量 为 5 级 计 分 ,非常 同意 得 
5 分 ， 同 意 得 4 分 ,无所谓 3 分 , 不 同意 得 2 分， 非常 不 同意 
得 1 分 ,那么 正面 陈述 的 题目 答 非 常 同意 得 5 分 ， 而 负面 陈述 
的 题 则 得 1 分 ， 其 余 类 推 。 

(2) 项 目 筛选 : 为 了 保证 态度 测量 有 效 ， 保 证 每 个 题目 的 
鉴别 力 是 基础 ， 那 么 如 何 来 鉴别 每 个 项 目的 区 分 度 ， 通常 的 做 
法 是 将 所 有 受 测 者 的 得 分 按 总 分 由 高 到 低 排列 ， 然 后 计算 高 分 
组 与 低 分 组 在 每 一 项 目 上 的 平均 得 分 的 差异 ， 差 异 越 大 的 项 目 
鉴别 力 越 好 ， 反 之 则 越 差 。 

《利克 特 量 表 》 的 优点 是 制作 过 程 简单 ， 而 且 能 广泛 接受 
与 态度 主题 有 关 的 项 目 ; 另外 可 通过 增加 项 目 而 提高 将 度 ， 并 
且 允 许 受 测 者 充分 表达 态度 的 强烈 程度 。 问 题 与 不 足 是 相同 的 
态度 分 数 者 可 能 持 有 不 同 的 态度 模式 ， 从 总 分 只 能 看 出 一 个 人 
的 赞成 程度 ， 而 无 法 对 态度 差异 作 进一步 的 解释 。 

3.《 哥 特 曼 量 表 》 法 

人 证 特 蝇 最 表 》 是 内 哥 特 曼 (TL..Guttman) 于 1950 年 扣 
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出 ， 这 种 量 表 的 编制 思路 与 前 述 二 者 不 同 ， 它 试图 确定 一 个 单 
向 性 的 量 表 ， 所 谓 单 向 性 即 项 目 之 间 的 关系 或 排列 方式 是 有 序 
可 循 的 ， 如 果 一 个 人 赞同 第 二 个 项 目 ， 他 同时 也 赞同 第 一 个 项 
目 ， 如 他 移 成 第 三 个 项 目 ， 他 也 赞成 第 二 、 第 一 个 项 目 。 这 种 
单 向 性 是 《 琴 斯 顿 量 表 》 所 不 具备 的 ， 尽 管 《 瑟 斯 顿 量 表 》 中 
的 项 目 有 等 级 ,但 赞成 高 等 级 项 目 者 未 必 赞 成 低 等 级 项 目 。 在 
《利克 特 量 表 》 中 ， 受 测 者 的 结果 依 项 目 总 分 耐 论 ， 与 单个 项 
目的 关系 就 更 远 了 ， 正 因为 如 此 ， 夸 斯 顿 的 中 位 数 估计 法 与 利 
克 特 的 总 分 估计 法 对 于 相同 分 数 等 级 的 人 都 难于 作出 相同 态度 
模式 的 测量 结论 。 而 《 哥 特 曼 量 表 》 却 有 这 种 优势 ， 相 同 分 数 
的 人 ， 态 度 模式 相同 。 

《 哥 特 曼 量 表 》 的 制定 方法 比较 简单 ， 现 介绍 如 下 : 

(1) 挑选 可 用 于 测量 对 某 事物 态度 的 具体 叙述 句 或 称 为 项 
目 ， 构 成 一 个 预备 量 表 (假设 有 7 个 项 目 )。 

(2) 将 预备 量 表 施 测 于 一 个 有 代表 性 的 样 组 ， 赞 成 的 项 目 
以 “0” 表 示 ， 不 赞成 的 项 目 以 “x ”表示 《假设 抽 取 了 13 
js 

(3) 将 受 测 者 按 回答 费 成 的 多 少 由 高 至 低 排列 ， 将 项 目 依 
将 成 多 少 也 由 高 至 低 排列 ， 这 样 得 到 一 个 受 测 者 对 项 目 集 的 反 
应 表 ， 见 表 15.6。 

(4) 去 掉 某 些 无 法 判断 是 赞成 或 反对 的 项 目 ( 这 个 假想 数 
据 未 涉及 )。 

(5) 计算 复制 系数 : 复制 系数 的 计算 公式 如 下 

Cro 1- - 误 答 数 
TP “总 反应 数 

它 是 单 向 性 好 坏 的 一 个 指标 ， 如 果 复 制 系数 高 于 0.90， 则 单 
向 性 得 到 基本 保证 。 

那么 何谓 误 答 数 、 何 谓 总 反应 数 呢 ? 
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总 反应 数 为 13 个 人 , 每 人 7 次 反应 的 总 次 数 即 91; 所 谓 
误 答 数 是 指 沿 着 答 锡 成 与 答 不 赞成 的 分 切 点 所 划 的 一 条 阶梯 线 
(分 切线 上 答 不 忱 成 或 分 切线 下 答 灶 成 的 即 为 误 答 数 )， 这 些 是 
不 符合 单 向 性 标准 的 ， 从 表 中 可 知 ， 不 符合 单 向 性 模式 的 共有 
4 个 点 ， 故 Crep = 1 -4/91 =0.96,， 属 单 向 性 比较 好 的 豆 特 曼 
量 表 。 将 这 些 题 目 按 新 的 顺序 要 求 排列 便 得 到 了 所 需要 的 单 向 
量 表 。 


表 15.6 可 特有 曼 量 表 反 应 分 析 囊 
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该 量 表 的 优点 前 面 已 经 谈 过 ， 主 要 是 由 单 向 性 带 来 的 态度 
分 数 与 态度 结构 的 一 致 性 ， 而 缺点 则 是 编制 困难 。 
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(一 ) 品德 概述 

品德 是 一 个 十 分 复杂 的 概念 ， 从 心理 学 的 角度 普遍 的 看 法 
是 ， 品 德 是 一 种 个 体现 象 ， 它 是 个 人 依据 一 定 的 道德 行为 准 
则 ， 行 动 时 所 表现 出 来 的 稳固 的 倾向 或 特征 ， 其 结构 包括 道德 
认识 、 道 德 感 、 道 德意志 和 道德 行为 方式 ; 从 教育 学 的 角度 
看 ， 比 较 流 行 的 观点 是 把 品德 与 思想 品德 等 同 ， 认 为 品德 是 一 
定 社会 思想 、 政 治 、 道 德 的 规范 在 个 体 身 上 的 体现 ， 认 为 品德 
的 内 容 是 思想 品质 、 政 治 品质 、 道 德 品质 的 统一 体 。 二 者 的 差 
异 是 心理 学 对 品德 的 内 容 定义 得 窗 一 些 ， 而 教育 学 要 宽 一 些 。 
另外 ， 心 理学 更 倾向 于 从 过 程 考虑 ， 而 教育 学 从 内 容 的 结构 与 
关系 方面 考虑 多 一 些 。 这 里 则 把 品德 的 内 容 取 教育 学 的 观点 ， 
把 晶 德 的 过 程 取 心 理学 的 观点 ， 以 利于 后 面 对 品 德 测量 的 全 面 
介绍 。 

在 个 性 中 ， 品 德 是 性 格 中 能 作 善 恶 、 好 坏 评价 的 主要 内 
容 ， 故 它 在 人 的 个 性 中 处 于 十 分 重要 的 地 位 ; 在 教育 目标 中 ， 
德 也 是 居于 智育 、 美 育 、 体 育 和 劳动 技术 教育 之 首 ， 它 决定 了 
人 活动 的 方向 以 及 价值 ， 作 用 不 可 小 视 。 科 学 准确 地 测量 品 
德 ， 不 仅 有 利于 检验 教育 的 成 效 ， 而 且 有 利于 找到 德育 工作 
的 成 功 经 验 和 失败 教训 ， 以 改进 方式 方法 ,最终 达到 接近 教育 
目标 的 目的 。 

相当 一 部 分 品德 测量 在 方法 上 比 测验 法 宽 ， 包含 了 观察 
法 、 实 验 法 、 访 谈 法 乃至 个 案 分 析 法 等 。 不 难 设想 ， 这 类 测量 
的 信 、 效 度 不 仅 难 于 计 景 ， 而 且 也 不 会 理想 、 鉴 于 上 述 这 些 原 
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因 ， 这 里 不 介绍 这 些 内 容 ， 而 主要 择 其 中 规范 化 程度 高 一 些 的 
情境 性 测验 与 问卷 性 测验 作 些 介绍 。 


《二 ) 情境 测验 法 

情境 测验 就 是 设置 一 个 活动 环境 或 提出 一 个 问题 情境 ， 通 
过 学 生 对 情境 问题 的 反应 ， 来 了 解 品 德 特征 。 它 分 为 直接 情境 
测验 和 间接 情境 测验 ， 直 接 情 境 主要 是 人 为 创造 的 真实 活动 情 
境 ， 间 接 情境 则 是 假想 的 问题 情境 。 

1. 活动 情境 测验 

这 类 情境 通常 是 受 测 者 需要 亲自 参加 活动 的 情境 ， 由 于 它 
比较 具体 ， 而 且 活 动 又 不 可 能 太 复 杂 ， 因 训 只 能 了 解 品 德 的 某 
一 个 方面 ， 如 诚实 、 公 正 、 竞 争 与 协作 等 ， 难 于 把 品德 的 方 方 
面 面 都 反映 出 来 。 

蛤 特 松 (Hartshorne) 和 梅 尔 (May) 是 在 品德 研究 中 最 
早 尝试 情境 测验 的 人 。 为 了 了 和 解 学 龄 儿童 诸如 诚实 、 自 我 控制 
和 利他 主义 等 品格 ,他 们 设计 了 一 系列 内 容 广 泛 的 测验 ， 其 中 
应 用 最 广 的 是 城 实测 验 。 其 中 一 种 方法 是 利用 平常 的 考试 傅 
境 ， 让 学 生 完 成 一 些 诸如 词汇 、 算 术 推 理 、 完 成 句子 一 类 的 试 
题 ， 考 试 完 后 ， 把 试卷 收 齐 带 回 ， 然 后 将 试卷 做 一 复 份 ， 下 次 
上 课时 将 未 批改 的 试 着 和 标准 答案 发 给 学 生 ， 要 求学 生 自己 批 
改 分 数 ， 再 把 批改 后 的 卷子 收回 ,将 此 卷 与 批改 前 的 复 份 相对 
比 ， 这 样 便 可 以 发 现 儿 童 是否 有 自己 修改 答案 提高 分 数 的 不 诚 
实行 为 。 

除 此 之 外 的 常用 情境 是 曲线 迷 、 方 迷 和 周 迷 三 种 情境 ， 这 
三 种 情境 的 图 形 如 下 : 
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图 15.2 曲线 迷 测 验 
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图 15.3 周 迷 测验 
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曲线 迷 测 验 要 求 受 测 者 将 铅笔 尖 放 在 迷津 “x ”外 ,同时 
要 求 受 测 者 在 所 上 双眼 的 情况 下 按 迷 津 的 方向 移动 ， 并 不 可 接 
触 迷津 的 任何 一 边 ， 完 成 一 题 得 一 分 ; 方 迷 测验 则 是 要 求 受 测 
者 在 闭 上 眼睛 后 ， 从 方 迷 的 “x ”处 按 箭头 方向 移动 铅笔 ， 也 
是 不 能 接近 边 周 的 方 框 ,. 最 后 回 到 “x ”处 ,完成 一 个 得 1 
分 ; 周 迷 测验 也 类 似 ， 只 是 要 求 在 闭 眼 的 情况 下 ,从 “x” 处 
开始 在 大 小 不 等 的 圆圈 内 打点 ， 共 打 三 沉 ， 打 中 一 个 得 1 分 。 
上 述 测 验 事 先 要 通过 控制 测验 确定 诚实 分 数 常 模 ， 然 后 将 个 人 
的 操作 成 绩 与 常 模 分 数 进行 比较 ， 以 确定 诚实 水 平 。 

另外 ， 前 苏联 心理 学 家 雅 可 布 松 (C.r.aKobcoH) 设计 了 
一 个 测验 公正 的 情境 测验 。 其 具体 艇 法 是 这 样 的 : 把 儿童 分 成 
三 四 人 一 组 来 玩 玩 具 小 汽车 ， 让 受 测 者 一 人 陋 着 屏风 负责 分 配 
各 种 不 同 的 令 人 喜欢 的 小 汽车 ， 把 儿童 留 给 自己 玩 的 小 汽车 数 
与 分 发 给 其 他 几 个 小 朋友 玩 的 小 汽车 数 的 比率 作为 公正 性 的 指 
标 ， 如 果 受 测 者 平均 分 配 ， 表 明 他 公正 ， 如 果 他 的 玩具 数 比 别 
的 儿童 多 ， 意 味 着 他 不 公正 。 

2. 很 设 的 问题 情境 

品德 分 为 道德 认识 、 道 德 感 、 道 德意志 和 道德 行为 ， 活 动 
情境 的 品德 测验 往往 是 一 种 综合 测验 ， 由 于 它 涉 及 的 面 窗 ， 因 
而 对 道德 认识 的 发 展 是 难于 测量 的 。 

美国 心理 学 家 柯 尔 伯 格 (L.Kohlberg) 受 皮 亚 杰 
{J .Piaget) 的 临床 法 及 道德 发 展 思想 的 影响 ， 运 用 道德 两 难 故 
事 法 这 种 假想 的 问题 情境 测验 ， 间 接地 测量 道德 判断 的 方式 及 
发 展 水 平 。 他 把 道德 发 展 分 成 3 种 水 平 6 个 阶段 ， 即 前 世俗 水 
平 〈preconventional level)， 它 包含 人 惩罚 与 服从 的 定向 阶段 和 相 
对 的 实用 主义 阶段 ; 世俗 水 平 (conventional level) ， 包 括 好 和 孩 
子 或 好 公民 的 定向 阶段 和 遵从 权威 与 维护 社会 秩序 的 定向 阶 
` 段 ; 后 世俗 水 平 《postconventional leyel) ， 包 括 社会 契约 的 定 
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向 阶 自 和 普遍 道德 原则 的 定向 阶段 。 

他 的 道德 两 难 故 事 中 一 个 比较 经 典 的 故事 是 海 因 效 偷 药 。 
故事 的 内 容 大 体 如 下 : 一 个 欧洲 妇女 趾 了 瘤 症 ， 生 命 垂危 。 医 
生 告 诉 她 的 丈夫 海 因 效 ， 本 镇 一 位 药剂 师 最 近 发 明了 一 种 镭 化 
剂 的 药 ， 可 以 救 他 的 妻子 。 这 位 药剂 虾 售 一 小 谢 药 要 价 2000 
美元 ， 高 于 药 的 成 本 10 倍 。 海 因 效 竟 尽 全 力 只 借 到 1000 美 
元 ， 他 屋 求 药剂 师 便宜 一 些 把 药 卖 给 他 ， 或 延期 付款 。 但 药剂 
师 说 :“ 不 行 ， 我 发 明 这 种 药 就 是 为 了 赚钱 。” 海 因 兹 在 绝望 中 
钰 而 走 险 ， 晚 上 去 援 开 药 库 偷 了 这 种 药 。 主 试 讲 过 故事 后 担 了 
一 系列 问题 问 被 试 ， 如 “ 海 因 兹 该 不 该 偷 药 ? 为 什么 ?”“ 法 官 
该 不 该 判 他 的 罪 ? 为 什么 ?” 这 里 主要 是 根据 受 测 者 对 回答 的 
理由 及 推理 过 程 作 发 展 水 平 的 评价 。 

通常 来 说 ， 在 真实 的 情境 与 假设 的 情境 中 ， 对 道德 认识 的 
测验 是 比较 准确 的 ， 但 在 道德 体验 上 是 有 差异 的 ， 实 际 情境 要 
强烈 得 多 ， 而 且 道德 判断 与 道德 行为 之 间 往 往 并 不 一 致 ， 仅 仅 
通过 道德 判断 发 展 水 平 来 预测 行为 是 不 完全 的 。 


(三 ) 问卷 测量 法 

尽管 用 于 测量 人 格 、 兴 趣 等 的 问卷 很 多 ， 然 而 ， 专 门 用 于 
测量 品德 的 标准 化 的 问卷 却 很 少 ， 造 成 这 种 状况 可 能 有 两 方面 
的 原因 ， 一 是 品德 问题 太 复杂 ， 难 于 测量 《特别 是 标准 化 地 测 
量 ) ， 二 是 过 去 对 这 个 方面 的 研究 尚 不 够 深入 。 而 前 者 的 影响 
可 能 更 大 一 些 ， 因 为 品德 的 相当 一 部 分 内 容 涉及 到 价值 判断 ， 
与 人 的 生活 密切 相关 ， 因 而 难于 揭示 ， 用 自 陈 形式 真实 性 就 更 
难保 证 了 。 即 使 这 般 ， 只 要 能 很 好 地 设计 ， 认 真 地 控制 ， 相 信 
还 是 能 反映 一 些 客观 信息 的 。 

鉴于 前 述 的 种 种 原因 ， 故 这 里 只 是 简单 介绍 品德 问卷 测量 
的 凡 种 形式 和 注意 事项 。 一 般 来 说 ， 问 卷 由 两 部 分 构成 ， 一 是 
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人 口 性 资料 ， 要 求 回答 诸如 姓名 、 性 别 、 年 龄 、 文 化 程度 一 类 
的 问题 ; 二 是 正式 内 容 。 问 着 内 容 是 两 种 呈现 形式 ; 一 种 叫 封 
闭 式 ,其 答案 都 是 规定 好 了 的 ， 受 测 者 只 需 从 中 选择 符合 自己 
情况 的 一 个 答案 ; 另 一 种 是 开放 式 的 ， 不 指出 固定 的 内 容 ， 而 
: 受 测 者 围绕 问题 自由 作答 。 为 了 保证 结果 的 可 比 性 、 标 准 化 
注 数 量化 ， 在 问卷 式 测量 中 ， 封 闭 式 反 应 形式 用 得 较 多 ， 主 要 


有 以 下 几 种 : 

(1) 多 项 选择 式 ， 即 要 求 受 测 者 从 固定 的 答案 中 选 一 个 或 
开 个 答案 。 例 如 : 

别人 打 你 ， 你 从 不 还 手 吗 ? 太 是 B 否 

我 曾经 说 过 假 话 凡是 B 不 确定 C 不 是 


(2) 评定 量 表 式 : 即 要 求 受 测 者 在 每 题 后 列 出 的 几 个 等 级 
中 选 出 一 个 符合 自己 情况 的 等 级 。 例 如 ， 
很 好 较 好 中 等 玫 泣 入 这 


见 了 老师 主动 打招呼 1 2 3 4 5 
诚实 、 不 说 谎 、 不 骗 人 、 不 隆 眶 1 2 3 4 5 
保护 有 益 动 物 ， 不 近 珍 禽 益 兽 1 2 3 4 5 


《3) 排序 或 对 偶 比 较 式 ， 即 把 一 序列 问题 放 在 一 起 按 符合 
自己 情况 的 重要 性 排序 或 把 这 些 问题 两 两 对 照 ， 排 出 重要 性 。 
这 种 方式 用 得 较 少 。 

在 品德 测量 类 问卷 的 编制 时 ， 应 注意 以 下 问题 : 第 一 ， 应 
做 好 问卷 的 试用 与 修订 。 许 多 问卷 在 评价 时 ， 不 考虑 问卷 本 身 
的 质量 ,不 作 同 质 性 分 析 ， 不 做 信和 度 和 效 度 分 析 ， 难 于 使 测量 
结果 真实 可 靠 ; 第 二 ， 要 客观 地 看 待 品德 问卷 测验 的 结果 ， 在 
某 种 意义 上 ， 品 德 测量 比 人 格 测量 还 难保 证 效 度 ， 因 为 它 涉及 
的 问题 更 敏感 ， 如 果 把 这 种 信息 作 参 考 那么 它 是 有 价值 的 ， 如 
果 把 它 作 为 评价 人 的 品德 好 坏 的 叭 标尺， 那 就 会 贻 害 无 穷 
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练习 与 思考 


1. 如 何 理解 焦虑 ? 常用 的 焦 庶 测 量 工 具有 哪些 ? 

2. 职业 兴趣 测验 的 量 表 发 展 趋势 是 什么 ? 如 何 评价 职业 
兴趣 测验 在 职业 选择 中 的 作用 ? 

3. 态度 和 品德 测量 的 常用 方法 有 哪些 ? 优 缺 点 何在 ? 
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第 十 六 章 测量 的 综合 应 用 


本 章 提 要 : 

全 测量 在 心理 咨询 中 的 应 用 
合 测 量 在 人 事 测评 中 的 应 用 
会 济 虽 在 教育 评价 中 的 应 用 
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心理 与 教育 测量 的 功能 之 一 是 评估 人 的 特 狂 ， 而 人 又 是 一 
个 包含 个 性 倾向 性 《如 需要 、 兴 趣 、 动 机 、 价 值 观 等 ) 、 能 力 、 
气质 和 性 格 等 特征 的 有 机 整合 体 。 因 此 尽管 测量 所 应 用 的 领域 
不 同 ， 但 测量 所 涉及 的 内 容 却 有 很 大 的 相似 人 性， 比如 在 心理 次 
询 中 就 要 测量 人 的 各 方面 心理 属性 〈 这 主要 是 为 了 帮助 人 更 好 
地 适应 生活 、 社 会 )}， 人 事 测评 中 也 要 测量 人 的 各 个 方面 的 心 
理 特点 《这 主要 是 为 了 选拔 和 安置 合适 的 人 )， 而 教育 评估 中 
自然 也 少不了 人 的 心理 特性 的 评估 〈 它 主要 是 为 了 提高 教育 的 
效果 )。 因 此 介绍 测量 在 这 3 个 方面 的 应 用 时 会 有 些 交 叉 或 重 
复 ， 但 由 于 需要 不 同 ， 侧 重点 会 有 些 差 异 。 


第 一 节 ”测量 在 心理 咨询 中 的 应 用 


一 、 心 理 咨询 概述 


咨询 OQ 一 词 来 源 于 拉丁 语 Consultation， 其 基本 意思 是 商 
讨 或 协商 ， 亦 即 通过 商谈 而 解决 问题 。 根 据 这 种 含义 ， 在 不 同 
的 领域 有 不 同 的 协商 ， 以 解决 不 同 的 问题 如 商业 有 离 业 咨 
询 ， 法 律 有 法 律 咨询 ， 另 外 还 有 技术 咨询 、 医 学 咨询 和 管理 次 
询 等 ， 心 理学 中 也 有 以 人 的 心理 为 内 容 而 进行 的 心理 咨询 。 心 
理 咨 询 以 人 的 心理 方面 的 问题 为 内 容 ， 但 不 是 任何 人 都 需要 心 


人 D 邓 困 到 、 郭 念 峰 主编 ; 《咨询 心 奋 学 }、 北 京 ， 中 国 科学 技术 出 版 社 1992 
全 9 月 出 版 . 第 3~4 页 、 
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理 咨询 ， 心 理 咨询 的 对 象 通常 是 那些 存在 心理 冲突 、 心 理 不 
适 、 心 理 困 惑 或 心理 障碍 的 人 。 由 于 人 们 存在 的 心理 问题 的 程 
度 有 轻 有 重 ， 轻 的 如 不 知道 如 何 与 人 交往 ， 不 知道 如 何 对 待 失 
败 ， 不 了 解 自己 适合 干什么 ; 重 的 如 对 茶 种 动物 有 不 同 常人 的 
恶 惯 ,强迫 重复 某 种 不 必要 的 行为 、 极 端 抑郁 、 神 经 衰弱 乃至 
自杀 念头 强烈 等 。 因 此 在 “咨询 ”的 过 程 、 方 法 上 存在 一 定 的 
差异 ， 正 是 这 些 差异 ， 人 们 在 对 心理 咨询 的 对 象 的 认识 上 也 存 
在 一 定 的 分 层 ， 这 些 分 层 的 核心 和 焦点 是 咨询 对 象 的 心理 困扰 
程度 。 

可 以 把 心理 困扰 的 状况 形象 地 看 成 是 一 个 连续 体 ， 如 图 
16.1 所 示 : 





无 困扰 有 轻 度 困 找 有 中 度 困 拢 有 严重 困扰 
图 16.1 心理 困扰 程度 示意 图 


有 人 主张 心理 咨询 的 对 象 是 所 有 存在 心理 困扰 需要 咨询 的 
人 ， 即 无 困扰 之 外 的 所 有 人 。 另 有 人 主张 心理 咨询 只 针对 有 轻 
度 困扰 者 ， 理 由 是 有 中 度 或 严重 心理 困扰 的 人 通常 有 神经 症 
(如 改 怖 症 、 强 迫 症 等 ) 和 精神 病 ( 冶 病 、 性 倒 错 、 精 神 分 裂 
症 等 )。 他 们 的 困扰 的 解除 办 法 主要 是 心理 治疗 和 药物 治疗 ， 
而 心理 咨询 只 是 辅助 丽 固 疗效 的 办 法 ， 氛 治疗 为 核心 ， 治 疗 者 
与 被 治疗 者 的 关系 不 是 咨询 关系 ， 而 应 是 医 患 关系 。 因 此 建议 
把 这 类 活动 称 为 心理 治疗 更 合适 ， 它 与 一 般 意义 上 的 咨询 完全 
不 同 ， 故 这 部 分 对 象 不 属于 心理 咨询 的 范围 。 第 三 种 观点 是 折 
里 派 ， 主 张 把 轻 度 困 扰 者 与 部 分 中 度 困扰 者 划 归 为 心理 咨询 的 
对 象 。 他 们 认为 第 一 种 观点 对 心理 咨询 的 定义 过 于 宽泛 ， 人 往往 
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容易 夸大 心理 咨询 的 作用 ， 而 贻误 对 咨询 对 象 施 以 及 时 的 心理 
与 药物 治疗 ,会 影响 咨询 的 形象 ; 而 第 二 种 观点 又 对 心理 咨询 
的 作用 估计 不 足 ， 认 为 心理 咨询 对 中 度 困扰 者 一 筹 莫 展 。 事 实 
上 ， 许多 中 度 心理 困扰 如 恶 怖 症 、 中 度 强 追 证 等 通过 心理 咨询 
亦 可 以 收 到 很 好 的 效果 ， 而 且 这 种 方式 相对 于 心理 治疗 更 容易 
为 咨询 对 象 接受 ， 实 施 咨询 使 咨询 对 象 心理 压力 小 ， 故 主张 在 
二 者 中 打 个 折扣 。 

综 上 所 述 ， 可 以 对 心理 咨询 作 如 下 定义 ; 心理 咨询 @ 是 
求 询 者 就 其 心理 冲突 、 心 理 障碍 或 轻 度 心理 疾病 向 有 专业 技术 
的 咨询 人 员 诉说 、 询 问 ， 咨 询 人 员 分 析 问 题 的 原因 和 症结 并 导 
求解 决 问题 的 办 法 ， 提 高 对 生活 的 适应 性 和 对 周转 环境 的 调节 
能 力 。 

心理 咨询 的 形式 ， 从 不 同 的 角度 有 多 种 分 法 : 按 与 接受 次 
询 者 的 接近 程度 可 分 为 直接 面谈 咨询 和 间接 咨询 (通过 对 咨询 
对 象 有 关 的 人 咨询 而 咨询 ); 按 接受 咨询 者 人 数 的 多 少 可 分 为 
个 别 咨询 和 团体 咨询 (超过 1 人 ); 按 进行 咨询 的 手段 分 有 电 
话 咨询 、 信 和 函 咨询 、 电 视 咨 询 等 。 上 面 的 各 种 咨询 形式 各 有 优 
缺点 ， 在 选择 时 要 因地制宜 。 比 如 直接 面谈 咨询 就 有 获得 信息 
直接 、 影 响 直接 和 咨询 效果 好 等 优点 。 如 果 受 咨询 者 胆 小 ， 或 
地 处 偏远 ， 或 经 费 短缺 ,直接 面谈 法 的 作用 就 难以 发 挥 ， 信 
菌 、 电 话 等 咨询 方式 更 有 优势 。 

心理 咨询 通常 有 3 个 核心 过 程 : 一 是 分 析 诊 断 过 程 ; 二 是 
帮助 指导 过 程 ; 三 是 效果 评估 过 程 。 

分 析 诊断 ， 就 是 要 了 解 接受 咨询 的 对 象 存在 些 什么 困扰 ， 
有 哪些 具体 的 表现 ， 导 致 这 些 现象 的 可 能 原因 是 什么 ,并 在 深 
人 了 解 的 基础 上 作出 判断 ， 确 定 问题 属于 哪 种 类 型 ， 程 度 严重 


i 张 小 乔 :《 心 理 咨 询 治疗 与 测验 )， 北 京 ， 中 国人 民 大 学 出 版 社 1993 年 4 
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与 否 ， 原 因为 何 ， 初 步 的 应 对 措施 是 什么 。 

帮助 指导 过 程 即 根据 分 析 诊断 的 结果 以 及 提出 的 对 策 ， 有 具 
体 落实 对 策 的 过 性。 比如 我 们 发 现 某 学 生 的 考试 焦虑 属 情绪 性 
的 ， 拟 通过 放松 训练 予以 缓解 和 消除 ， 帮 助 指导 过 程 便 需 要 系 
统 地 给 咨询 对 象 讲 清 帮 助 工作 的 思路 、 办 法 、 时 间 及 注意 事 
项 ,然后 按 这 套 措施 一 步 一步 地 实施 ， 在 本 例 中 便 要 讲 清 什么 
是 放松 训练 ， 它 与 考试 焦虑 缓解 的 关系 ， 放 松 训练 如 何 进行 ， 
要 多 长 时 间 ， 要 达到 什么 效果 等 。 在 大 多 数 傅 况 下 , .帮助 辅导 
过 程 比较 顺利 ， 也 有 些 时 候 ， 可 能 由 于 诊断 不 准确 、 对 策 缺 乏 
针对 性 ， 需 要 在 实施 中 予以 调整 。 何 以 知道 效果 良好 或 不 佳 
呢 ? 咨询 效果 评估 是 重要 的 一 环 。 

咨询 效果 评估 的 办 法 有 多 种 ， 测 验 亦 是 其 中 用 得 较 多 的 一 
种 。 之 所 以 说 上 述 三 个 过 程 是 心理 咨询 的 核心 过 程 ， 是 因为 不 
同 的 咨询 形式 可 能 有 些 特殊 的 地 方 ， 比 如 个 别 会 谈 等 。 

除了 上 述 3 个 过 程 外 ， 在 开始 还 有 一 个 初步 的 开端 ， 以 建 
立 良好 的 信任 关系 ， 促 成 咨询 活动 的 深入 。 | 


二 、 心 理 测量 在 心理 咨询 中 的 应 用 


如 果 把 比 内 为 鉴别 智力 低下 儿童 而 编制 的 《 比 内 智力 测 
验 》 看 成 广义 的 咨询 ， 那 么 心理 咨询 中 应 用 心理 测量 的 历史 与 
心理 测量 的 历史 一 样 长 。 除 智力 测量 外 ， 兴 趣 、 能 力 测 验 、 焦 
虑 测验 ， 在 心理 障碍 咨询 中 都 得 到 了 广泛 应 用 。 心 理 测量 在 心 
理 咨 询 中 的 作用 主要 是 诊断 与 效果 评估 ， 尤 其 以 诊断 用 得 
最 多 。 . | . | 
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(一 ) 在 自我 认识 、 人 生 规 划 咨 询 中 的 应 用 - 

从 某 种 意义 上 说 ， 人 的 一 生 都 是 在 自我 发 现 、 自 我 创造 。 
完全 客观 地 认识 自己 并 不 容易 ， 而 不 能 较 好 地 认识 、 评 价 自 
己 ， 塑 造 自己 就 会 很 困难 。 

自我 认识 的 内 容 很 多 ， 从 自我 认识 咨询 方面 看 ， 人 们 感 兴 
趣 的 问题 通常 有 两 大 类 : 一 是 自己 是 什么 样 的 人 ， 有 什么 长 
处 ,， 有 哪些 不 足 ? 二 是 这 些 长 处 适合 从 事 什么 职业 ， 这 些 不 足 


如 何 克 服 和 弥补 ”由 于 这 个 河 题 与 人 事 测评 交叉 太 多 ， 故 放 在 


下 节 介绍 ， 这 里 只 简单 讨论 第 一 个 问题 。 

从 评价 自己 的 心理 特性 方面 讲 ， 人 们 比较 感 兴趣 的 主要 是 
性 格 和 智力 以 及 价值 观 、 气 质 类 型 等 。 一 个 人 能 较 好 地 认识 自 
己 ， 比 较 客 观 地 对 待 自己 的 短 长 ,扬长避短 ， 对 自己 有 好 处 ， 
对 社会 也 有 价值 。 假 如 某 估 发现 自己 在 性 格 上 乐 群 、 外 向 、 铺 
绪 稳 定 ， 但 权宜 数 衍 、 缺 乏 便 心 和 负责 的 精神 ， 那 么 在 以 后 的 
学 习 、 生 活 和 工作 中 便 要 保持 优势 ， 克 取 权 宜 散 衍 的 不 足 ; 如 
发 现在 能 力 上 言语 思维 能 力 强 ， 而 动手 能 力 、 体 育 运动 能 力 特 
别 差 ， 那 就 要 注意 克服 不 足 ， 加 强 言语 思 纵 能力 方 面 的 优势 ， 
朝 文 学 、 法 律 、 哲 学 、 行 政 管理 等 方面 发 展 。 在 性 格 测验 方 
面 ， 比 较 常用 的 测验 有 卡特 尔 人 格 问 着 、YG 性 格 问卷 等 。 

《卡特 尔 16 种 人 格 办 素 测 验 》 结 果 比 较 丰 富 ， 除 了 评价 乐 
群 性 、 职 菇 性 、 稳 定性 、 情 强 性 、 兴 奋 性 、 有 恒 性 、 敢 为 性 、 
敏感 性 、 怀 疑 性 、 幻 想 性 、 世 故 性 、 忧 串 性 、 实 验 性 、 独 立 
人 性、 自律 性 、 紧 张 性 这 16 个 单 维 因素 外 ， 还 有 二 元 个 性 因素 
适应 与 焦虑 型 、 内 向 与 外 向 型 、 感 情 用 事 与 安 祥 机 警 型 、 居 
惯 与 果断 型 的 量 表 ， 以 及 对 人 的 心理 健康 因素 、 有 成 就 者 的 个 
性 因素 、 有 创造 性 的 个 性 因素 等 方面 的 测量 ，16PF 是 咨询 中 
广泛 使 用 的 人 格 测验 。 
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《YG 性 格 测验 》 的 使 用 也 很 多 ， 它 的 特点 是 解释 接近 生 
活 ， 容 易 理解 ， 它 把 性 格 分 成 抑郁 性 《D)、 稳 定性 (C)、 自 
插 {IT)、 神 经 性 (N)、 客 观 性 (0)、 攻 击 性 (Ag)、 协 调 人 性 
(Co)、 活 动 性 《G)、 送 应 性 (R)、 思 维 向 性 〈T) 、 支 配 性 
(A) 和 社会 向 性 〈S) 12 维度 ， 然 后 又 把 这 12 个 维度 概括 成 
情绪 性、 社会 化 、 内 外 向 性 、 活 动 性 、 冲 动 性 、 主 导 性 等 6 个 
方面 (具体 如 图 16.2 所 示 )， 该 测验 把 人 划分 成 5 种 典型 类 型 
和 许多 类 型 《或 称 混合 型 )。 这 5 种 典型 类 型 是 : 适应 外 向 性 
(D)、 不 适应 冲动 型 (B)、 均 衡 型 《4&A)、 适 应 内 向 型 《C)、 
不 适应 内 省 型 (E)。 ; 


情绪 性 社会 化 内 外 向 性 、 

AN pe 

DC I N O Co Ag GR TA S$ 
\ ] 


Ey pm 主导 人 性 
16.2 YG 性 格 维度 与 概括 类 别 


《 艾 森 克 人 格 问 卷 》 则 适用 面 窗 一 些 ， 主 要 用 于 临床 ， 其 
测量 结果 主要 有 3 个 方面 : 内 向 还 是 外 向 ， 情 绪 稳 定 不 稳定 以 
及 精神 病症 状 。 这 些 测验 都 有 适用 于 不 同年 龄 的 常 模 (卡特 尔 
大 格 因素 问卷 中 适合 8 ~ 14 岁 儿 童 的 问卷 简称 CPQ)。 

在 能 力 测验 方面 ， 比 较 成 熟 的 有 智力 测验 、 能 力 倾向 成 套 
测验 和 单项 特殊 能 力 测验 ， 这 方面 的 内 容 在 下 一 节 要 详 谈 ， 在 
此 不 多 说 。 关 于 兴趣 、 价 值 观 、 气 质 等 方面 有 一 些 测量 工具 ， 
但 标准 化 工作 做 得 少 ， 也 不 再 介绍 。 


《二 ) 在 神经 症 、 人 格 障碍 等 咨询 中 的 应 用 
前 面 提 到 了 对 正常 人 或 未 出 现 明显 心理 障碍 的 人 的 性 格 的 


"402 ， 心理 与 教育 测量 


测量 ， 现 在 要 讲 在 针对 有 中 度 或 严重 心理 困扰 者 来 咨询 时 使 用 
的 测量 工具 。 

比较 常见 的 心理 障碍 可 分 成 3 大 类 ; 一 是 神经 症 ， 包 括 且 
视 症 、 强 人 迫 症 、 神 经 训 弱 、 焦 虚 和 抑 帮 等 ， 二 是 人 格 障 碍 ， 包 
括 冶 病 、 躁 郁 症 、 精 神 分 裂 症 等 ， 三 是 性 心理 障碍 ， 包 括 恋 物 
赂 、 罕 淫 兰 、 裸 露 净 和 同性 恋 等 。 对 于 这 一 类 前 来 咨询 者 ， 如 
有 中 度 症 状 可 通过 心理 咨询 而 治疗 者 ， 可 以 通过 咨询 而 解除 症 
状 ; 如 经 过 诊断 超出 了 咨询 的 范围 ， 可 以 推荐 其 到 精神 病 医院 
接受 治疗 。 

在 这 类 咨询 中 ， 常 用 的 诊断 和 评估 工具 有 《明尼苏达 多 项 
-大 格 问卷 》(MMPI) 、《 艾 森 克 人 格 问卷 》、《 症 状 量 表 (Scl 一 
90)》 以 及 部 分 焦虑 测验 量 表 。MMDPI 是 在 临床 诊断 中 比较 权 
咸 的 自 陈 测验 ， 由 于 它 是 按照 经 验 法 编制 ， 故 在 对 咨询 对 象 的 
症状 与 严重 程度 方面 的 评估 比较 准确 ， 除 了 4 个 效 度量 表 ( 疑 
问 量 表 、 说 谎 量 表 、 诈 病 量 表 、 校 正 量 表 ) 外 ,还 有 10 个 分 
量 表 , 分 别 测量 咨询 对 象 在 疑 病症 {Hs)、 抑 郁 症 《D)、 凉 病 
(Hy)、 精 神 病 态 (Pd)、 男 性 化 - 女性 化 《Mf)、 妄 想 狂 
{Pa)、 精 神 衰 弱 (Pt)、 精 神 分 裂 (Sc) 、 轻 躁 狂 (Ma) 和 内 
向 《Si) 方面 的 状况 。 此 外 还 可 根据 这 10 个 方面 的 两 个 高 点 
组 合 ， 得 到 十 几 种 组 合 评价 ， 如 果 把 全 部 的 566 题 做 完 (前 面 
的 临床 量 表 只 需 散 399 题 ) ， 还 可 以 对 焦虑 (A)、 压 抑 (R)、 
外 显 性 焦 虚 《MAS)、 自 我 力量 〈(Es) 、 依 赖 性 〈Dy) 、 支 配 性 
(De) 、 社 会 责任 感 (Re) 、 偏 兄 (Pr)、 社 会 地 位 《St)、 控 制 
(Co) 等 性 格 内 容 进行 测量 。 

《 艾 森 克 人 格 问 卷 》 由 P、E、N 和 工 共 4 个 基 表 组 成 , 主 
要 测量 内 外 向 (E)、 情 绪 稳 定性 《N)、 精 神 质 (P)。L 量 表 
是 效 度量 表 ， 主 要 测验 受 测 者 的 不 真实 回答 。 在 这 个 测验 中 ， 
P 值 在 心理 咨询 中 的 作用 比较 大 。 
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症状 量 表 @ (Symptom Check - List 90) 是 由 德 瑞 格 提 斯 
(L.R.Derogatis) 编制 ， 起 初 这 个 量 表 仅 适 用 于 精神 科 或 非 精 
神 科 成 年 人 门诊 的 病人 ， 后 来 发 现 其 对 心理 健康 状况 的 研究 亦 
十 分 有 用 。 它 包括 90 个 项 目 ， 采 取 5 级 计 分 制 方式 ， 主 要 浏 
量 9 个 方面 ,， 即 秀 体 化 〈 主 要 反映 身体 不 适 感 ， 如 心血 管 、 胃 
跌 道 、 呼 吸 等 系统 的 不 适 和 头痛 、 腰 痛 、 肌 肉 酸 痛 等 )、 强 迫 
症状 、 人 际 关 系 敏感 、 抑 邦 、 焦 虚 、 敌 对 、 偏 执 〈 主 要 指 投射 
人 竹 思 维 、 猎 疑 、 妄 想 、 夸 大 等 ) 和 精神 病 性 ， 在 咨询 诊断 与 效 
果 评 估 中 有 广泛 的 使 用 价 信 。 


第 二 节 ”测量 在 人 事 测评 中 的 应 用 
一 、 人 事 测评 概述 


人 事 测 评 是 人 事 心理 学 中 的 一 个 核心 问题 。 人 事 心理 学 致 
力 于 探讨 人 与 事 的 最 佳 匹 配 ， 主 要 探讨 人 员 选 拔 、 训 练 、 考 
核 、 分 配 和 激励 等 有 助 于 实现 组 织 达 到 最 大 效率 目标 的 规律 。 
之 所 以 说 人 事 测评 是 核心 ， 是 因为 组 织 目标 的 实现 离 不 开 人 ， 
而 人 的 敬业 精神 、 才 能 等 心理 品质 只 有 和 相应 的 事实 现 最 佳 的 
组 配 ， 才 能 真正 有 效 地 为 实现 最 大 效率 创造 必要 条 件 ， 为 管理 
的 科学 性 打 好 基础 ， 不 然 训 练 、 考 核 、 分 配 与 奖励 的 效果 会 系 


a nT 《症状 自 评 量 表 (Sal - 90))}，《 上 海 精神 医学 )，1984 年 2 月 第 
~70 页 。 


=。 404 : 心理 与 教育 测量 


统 地 受 影响 。 那 么 何谓 人 事 测评 呢 ? 人 事 测评 是 指 根 据 职 业 或 
工作 的 要 求 ， 通 过 各 种 测量 手段 ， 对 人 的 素质 适合 事 的 程度 进 
行 评价 的 过 程 ， 其 目标 是 实现 人 与 事 的 最 佳 匹配 。 人 事 测 评 的 
基本 假设 是 ; 事 与 事 不 同 ， 人 与 人 有 差异 ， 事 不 能 不 掺 人 ， 人 
不 可 能 适合 干 任何 事 ， 要 充分 发 挥 人 的 潜能 ， 其 条 件 之 一 就 是 
要 使 人 与 事 匹配 。 

人 事 测 评 的 作用 最 早 是 在 战争 中 显示 出 来 的 ， 在 一 战 时 
期 美国 人 为 了 防止 低能 的 和 不 合格 的 士兵 人 伍 ， 于 是 便 请 心 
理学 家 编制 了 团体 智力 测验 ， 为 挑选 聪明 的 士兵 人 伍 和 使 聪明 
的 人 担任 更 重要 的 任务 作出 了 贡献 。 受 这 种 积极 效果 的 激励 ， 
美国 在 二 战 时 期 还 运用 了 按 瑟 斯 顿 思 想 编制 的 一 般 分 类 测验 
{General Classification Test， 简 称 GCT)， 按 知觉 速度 、 推 理 能 
力 、 语 词 理解 和 语词 流畅 、 空 间 知 觉 、 记 忆 和 计算 7 种 能 力 
〈 即 瑟 斯 顿 所 谓 的 智力 )， 对 军人 进行 分 类 ， 为 战争 的 胜利 作出 
了 贡献 。 另 外， 美国 1942 年 运用 心理 素质 测验 帮助 挑选 飞行 
员 ， 结 果 使 淘汰 率 由 65% 下 降 到 36%， 大 大 节省 了 财力 、 人 
为 的 浪费 。 在 40 年 代 这 种 重视 人 员 选 拔 的 观点 基本 上 是 美国 
大 事 工 作 的 常规 事宜 ， 可 见 其 价值 之 重大 。 

大 事 测评 工作 有 三 步 : .一 是 工作 分 析 ， 二 是 按 工作 分 析 的 
要 求 选 人 ， 三 是 选拔 使 用 后 的 效果 评估 。 

工作 分 析 是 人 事 测评 的 第 一 环 ， 也 是 基础 、 关 键 的 一 环 ， 
它 的 好 坏 决 定 了 选拔 和 效果 评估 。 工 作 分 析 要 解决 两 个 方面 的 
问题 ， 即 对 工作 本 身 作 出 规定 和 确定 工作 对 工作 人 员 的 行为 有 
什么 要 求 。 工 作 特 性 分 析 包 括 下 列 内 容 : 人 @ 职 务 名 称 (便于 工 
作 登 记 、 分 类 及 确定 组 织 内 外 的 各 种 工作 关系 ); 加 工作 活动 
和 工作 程序 (说明 所 完成 的 任务 、 使 用 的 原材料 和 机 器 设备 、 
与 他 人 工作 的 关系 等 ); 图 工作 条 件 与 物质 环境 ; @ 社 会 环境 
(说 明 工 作 群 体 中 的 人 数 、 完 成 下 作 所 要 求 的 人 际 交往 、 村 [下 
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作用 的 数量 和 程度 等 ); 全 筷 俩 条 件 (说 明 工作 时 数 、 工 资 结 
构 、 福 利 待遇 、 此 工作 在 组 织 中 的 地 位 、 晋 升 和 调动 等 )。 工 
作 人 员 的 行为 要 求 是 以 工作 特性 分 析 为 基础 而 制定 的 ， 其 内 容 
主要 有 : @@ 身 体 方面 的 特性 〈 包 括 体 力 、 身 体 的 灵活 性、 感官 
能 力 等 ); @ 心 理 方 面 的 特性 (主要 是 一 般 的 智力 和 创造 力 
等 ); @ 学 习 方面 的 特性 (主要 是 表达 能 力 、 决 策 能 力 、 知 识 
与 技能 的 学 习 能 力 等 ); 图 激励 方面 的 特性 〈 主 要 指 人 格 特性 
如 志向 、 道 德 感 、 适 上 应、 自控、 忍耐、 孤独 、 依 赖 性 等 )， 句 
社会 方面 的 特性 《主要 指 领导 和 协调 方面 的 特性 )。 

人 员 选 拨 是 继 工作 分 析 后 因 事 择 人 的 又 一 关键 步骤 ， 人 员 
选拔 的 方法 有 多 种 ， 如 面谈 、 工 作 申请 表 考 察 、 心 理 测 量 等 ， 
对 人 的 心理 特点 的 测量 是 心理 测量 的 优势 ， 它 可 以 发 挥 十 分 重 
要 的 作用 ， 它 的 质量 依赖 于 测验 工具 的 优 劣 。 

人 员 选 拔 的 效果 评估 是 对 人 事 测评 过 程 的 一 个 检验 ， 它 的 
作用 至 少 有 以 于 几 点 : 人 @ 判 断 预 测 或 选拔 工具 的 优 劣 ; 名 帮助 
确定 培训 计划 的 目标 ，@ 给 雇员 提供 具体 的 反馈 。 效 果 评 估 有 
主观 测量 和 客观 测量 ， 主 观测 量 可 以 用 主观 评定 量 表 和 定性 评 
语 评价 ， 客 观测 量 主要 是 生产 数据 和 人 事 数据 ( 恕 事故、 高 
职 、 缺 勤 等 )。 


二 、 测 量 在 人 事 测评 中 的 应 用 


心理 测量 在 人 事 测 评 中 有 一 定 的 应 用 价值 。 如 果 把 人 员 分 
成 在 岗 与 不 在 岗 ， 那么 对 于 在 岗 人 员 来 讲 ， 心理 测量 的 应 用 有 
两 个 方面 : 一 是 在 岗 人 员 是 否 合格 的 诊断 ， 二 是 对 不 合格 者 重 
浙 分 配 的 工作 安置 及 培训 效果 评 佑 ; 对 于 要 挑选 的 不 在 岗 人 员 
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而 言 ， 主 要 是 选拔 。 如 果 把 这 两 类 人 员 合 在 一 起 ， 心 理 测量 在 
人 事 测评 时 的 应 用 主要 有 3 个 方面 : 一 是 人 员 的 心理 特点 评 
估 ; 二 是 人 员 培 训 后 的 心理 特点 评估 ;三 是 工作 人 员 的 绩效 评 
估 ， 下 面 分 别 介绍 。 


(一 ) 在 人 的 心理 特点 评估 中 的 应 用 

不 同 的 组 织 由 于 其 结构 、 性 质 、 规 模 等 不 同 ， 自 然 其 所 要 
求 的 职位 、 工 作 也 不 一 样 ， 要 使 组 织 和 谐 、 高 效 地 运转 ， 除 了 
管理 等 因素 外 ， 选 拔 或 安置 合适 的 工作 人 员 也 十 分 重要 。 由 于 
工作 不 同 ， 其 对 人 的 心理 特点 的 要 求 也 就 不 一 样 。 对 人 的 心理 
特性 的 测量 有 两 个 大 的 方面 : 一 是 一 般 心 理 品质 测量 ， 主 要 指 
智力 、 个 性 等 ; 二 是 专业 知识 和 特殊 能 力 测 验 。 下 面 介绍 几 种 
常用 的 测验 。 

1. 智力 测验 

它 在 高 级 职员 的 选拔 和 安置 中 是 经 常用 的 指标 ， 因 为 它 是 
胜任 这 类 工作 所 不 可 缺少 的 ， 一 个 智力 低下 得 连 自己 的 生活 都 
安排 不 了 ， 如 何 能 领导 一 个 工厂 ? 指挥 一 项 科研 ? 常用 的 智力 
测验 有 《 韦 克 斯 勒 智力 测验 》 和 《 瑞 文 标准 推理 测验 )。《 韦 克 
斯 勒 智 力 测验 》 的 特点 是 把 智力 分 成 言语 和 操作 两 大 块 ， 又 把 
言语 部 分 分 成 常识 、 背 数 、 词 汇 、 算 术 、 理 解 、 类 同 6 个 分 测 
验 ， 把 操作 部 分 分 成 填 图 、 图 画 排列 、 积 木 图 案 、 拼 图 、 数 字 
符号 5 个 分 测验 ， 个别 施 测 ， 通 常 需要 45 ~ 60 分 钟 时 间 。《 瑞 
文 标准 推理 测验 》 则 是 非 文 字 的 标准 化 测验 ， 有 5 个 分 测验 ， 
每 个 分 测验 12 题 ， 它 可 以 个 别 施 测 ， 也 可 以 团体 施 测 ， 但 无 
时 间 限 制 ， 一 般 成 人 45 分 钟 左右 可 以 完成 。 

2. 个 性 测量 

不 同 工 作 对 个 性 的 要 求 是 不 同 的 ， 有 些 工作 是 单调 重复 
的 ， 要 有 忍耐 力 ;， 有 些 工作 需要 与 人 打交道 ， 需 要 外 向 的 人 ; 


第 十 六 章 ”测量 的 综合 应 用 ， 407 ， 


有 的 工作 在 整个 生产 中 十 分 关键 ， 要 求 严格 ， 压 力 大 ， 要 求人 
能 忍受 压力 ; 有 的 工作 有 很 大 的 风险 ， 要 求人 有 时 险 性 。 评 价 
人 的 个 性 ， 使 用 个 性 测验 是 一 种 较 好 的 评价 方法 。 在 个 性 测量 
中 ， 通 常 的 分 类 是 自 陈 测验 ， 投 射 测 验 、 情 境 测 验 和 评定 量 
表 。 自 陈 量 表 前 面 介 绍 较 多 ， 主 要 有 兴趣 、 气 质 、 人 性 格 等 几 
类 。 在 兴趣 测验 中 ， 有 《斯 特 妆 一 一 坎贝尔 兴趣 问卷 》、《 库 德 
兴趣 调查 表 》、《 自 我 兴趣 测验 》; 在 人 格 〈 含 气质 、 性 格 ) 测 
验 中 ， 有 《卡特 尔 16 种 人 格 因素 洞 验 》、《 艾 森 克 人 格 问卷 》、 
《YG 人 性 格 测验 》 等 常用 工具 。 投 射 测 验 主要 有 《 罗 夏 克 墨 迹 
测验 》 和 《主题 统 党 测验 》， 由 于 过 程 复杂 、 要 求 高 ， 所 用 不 
多 。 情 境 测 验 、 评 定量 表 编 制 得 还 不 多 ， 这 里 不 作 介绍 。 

3. 专业 知识 技能 测验 

它 在 各 类 专业 人 员 的 选拔 和 安置 中 应 用 广泛 。 在 许多 情况 
下 ,仅仅 测量 智力 、 个 性 是 不 够 的 ， 因 为 智力 、 个 性 等 代表 人 
的 一 般 束 质 ， 但 如 果 带 要 的 是 有 专业 知识 、 技 能 的 人 ， 这 就 要 
求 进行 专业 知识 技能 的 评估 。 比 如 目前 进行 的 公务 员 资 格 考 
试 、 会 计 师资 格 考试 、 计 算 机 程序 员 考 试 、 律 师资 格 考试 等 药 
属于 此 系列 。 

4. 特殊 能 力 测验 

除了 前 面 介 绍 的 几 种 指标 外 ， 关 于 特殊 能 力 的 研究 亦 十 分 
广泛 ， 因 为 许多 职业 的 专门 化 程度 都 比较 高 ， 它 也 许 对 一 般 能 
力 的 要 求 并 不 高 ， 但 特殊 能 力 却 必须 达到 基本 要 求 ， 下 面 分 别 
介绍 : 

(1) 音乐 能 力 测 验 : 美国 音乐 心理 学 家 西 塞 尔 
(E.Seashore) 在 依 阿 华 大 学 进行 了 广泛 研究 ， 并 编制 了 《 西 
塞 尔 音 乐 才能 测验 》 (The Seashore Measures of Musical Tal- 
ents)， 这 种 测验 后 来 几经 修订 ， 现在 的 形式 是 由 6 个 分 测验 
组 成 ， 包 括 音 高 、 音 强 、 节 奏 、 节 拍 、 音 色 和 音 高 记忆 ， 英 转 
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心理 学 家 维 因 (Wing) 编制 了 《 维 因 音 乐 智 力 标 准 测验 》 
(The Wing Standardized Test of Musical Intelligence) ， 测 验 有 7 
个 部 分 ， 前 3 个 部 分 测量 感觉 辨别 力 ， 后 面 4 个 主要 测 受 测 者 
在 比较 两 支 曲子 的 美学 优点 上 的 欣赏 能 力 ， 这 ? 个 部 分 是 和 音 
分 析 、 音 高 变化 、 记 忆 、 节 拍 重音 、 和 声 、 强 度 、 乐 音 的 分 
节 。 

《2) 美术 能 力 测验 : 美术 能 力主 要 包括 两 个 方面 ， 一 是 艺 
术 鉴 党 能力， 一 是 创作 能 力 。 一 个 没有 绘画 才能 的 人 可 能 有 较 
好 的 艺术 评价 能 力 ， 而 一 个 画家 则 二 者 缺 一 不 可 。 在 艺术 监 赏 
方面 ,《 梅 尔 美 术 鉴 赏 力 测验 》(Meier Art Judgement Test) 是 
一 个 比较 著名 的 测验 ， 这 个 测验 收集 了 许多 名 画 ， 把 名 天 与 名 
画 的 改动 版 进行 艺术 感受 评价 ， 以 鉴别 人 的 艺术 鉴赏 力 。 在 艺 
术 创 作 能 力 方面 ， 有 《洪恩 艺术 性 向 量 表 》@ (The Horn Art 
Aptitude Inventory) ， 这 个 测验 主要 采用 临 昔 作品 的 方法 ， 它 
需要 高 度 的 创造 力 。 测 量 内 容 包括 素描 画 、 随 意 画 《要 求 受 测 
者 用 指定 的 图 形 画 出 简单 的 抽象 图 案 ) 、 想 象 画 〈 给 受 测 者 12 
张 印 有 几 条 线 的 卡片 ， 要 求 受 测 者 用 这 些 线条 画 成 一 幅 草 图 )， 
用 优 、 中 、 差 三 级 计 分 ， 以 标准 样 图 作 依据 决定 好 坏 ， 最 后 作 
出 总 体 评价 。 

(3) 文书 能 力 测验 : 有 些 文职 人 员 经 常 要 与 数字 、 字 母 、 
文字 等 打交道 ， 哪 些 人 能 干 得 又 快 又 好 ， 可 以 通过 文书 能 力 测 
验 来 判断 。 适 用 于 这 类 能 力 检测 的 测验 有 《明尼苏达 文书 测 
验 》《 一 般 文 书 测验 》 等 。 

(4) 机 械 能 力 测 验 : 与 和 机械 打交道 的 工种 很 多 ， 但 尽管 如 


中 黄 元 零 : 全 于 且 村 育 型 星 的 理论 与 方法 》， 台湾 ， 大 中 国 图 书 公 司 印 行 ， 
I 第 139 页 

四 ; 《心理 及 教育 测验 的 理论 与 方法 》， 台湾 ， 大 中 国 图 书 公司 印行 
1987 年 清和 第 316 页 
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此 ,它们 对 人 的 要 求 却 有 很 多 的 相似 性 ， 判 断 一 个 人 机 械 能 力 
的 好 坏 ， 主 要 从 机 械 知识 、 运 动 反应 速度 、 协 调 性 等 几 个 方面 
测试 ， 这 方面 的 测验 工具 较 多 ， 主 要 集中 在 机 械 知 识 和 手指 灵 
巧 、 眼 手 协调 上 。 上 比如 《 贝 内 特 机 械 理 解 测验 》(Bennett Me- 
chanical Comprehension Test) 就 是 用 来 测 机 械 知 识 的 ， 它 的 内 
容 主要 选择 日 常生 活 中 涉及 机 械 原理 的 情境 ， 要 求人 们 利用 相 
关 的 原理 作出 判断 ; 而 《 珀 杜 插 栓 板 测 验 》{Purdue Pegboard) 
则 主要 是 测 人 的 手工 灵活 性 和 协调 性 ， 它 有 两 部 分 ,一 是 要 求 
受 测 者 分 别 用 左右 手 将 大 头 针 插 入 小 孔 ， 二 是 把 大 头 针 、 小 环 
和 橡皮 圈 装 配 到 每 一 个 小 和 孔 中 (这 时 对 手 不 作 限 定 操 作 ); 而 
《奥康 纳 手 指 灵 活性 和 镖 子 灵 活性 测验 》(O’Connor Finger and 
Tweezer Dextevity Test) 则 主要 测 手 指 的 灵巧 性 ， 它 楼 求 受 测 
者 尽快 用 手 或 奶子 把 针 插入 小 了 中 ， 这 种 能 力 对 链 纲 机 操作 
员 、 牙 科 工 作 人 员 是 不 可 少 的 。 

{5) 多 项 能 力 倾 向 测验 : 这 种 测验 在 人 的 特殊 能 力 的 全 面 
诊断 评估 方面 很 有 好 处 ， 相 对 于 前 面 介绍 的 一 些 特殊 能 力 如 文 
书 、 机 被 等 有 它 的 优势 ， 其 缺点 是 费时 。 目 前 介绍 、 修 订 较 多 
的 主要 是 一 般 能 力 倾 向 成 套 测 验 (General Aptitude Test Bai- 
tery， 简 称 GATB)， 它 包括 普通 推理 能 力 、 语 言 能 力 、 数 学 能 
力 、 空 间 关系 能 力 、 形 状 知觉 能 力 、 文 书 能 力 、 动 作协 调 、 手 
指 灵 巧 、 手 工 灵巧 等 分 测验 。 | 

(6) 管理 能 力 测量 : 由 于 管理 工作 十 分 复杂 ， 要 求 也 比较 
高 ， 故 对 管理 能 力 的 评价 也 较 困 难 。 除 了 前 面 介绍 的 智力 测验 
外 ， 主 要 有 两 种 测量 办 法 : 一 是 情境 测验 ， 二 是 评价 中 心 方 
法 。 人 情境 测验 用 得 较 多 的 是 无 领导 群体 讨论 和 《文件 框 测 
验 )@， 前 者 是 让 受 测 者 在 一 定时 期 内 就 某 些 论题 进行 讨论 ， 


人 @@ 书 思 * 卡 西欧 《人事 心 理学 》， 北京 ， 中 国人 民 大 学 出 版 杜 ，1991 华 5 
有 出 版 ,第 279 ~ 285 页 。 
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这 些 人 中 没有 领导 ， 然 后 由 评定 者 根据 各 种 标准 对 受 测 者 的 表 
现 进 行 评价 ; 后 者 则 是 根据 所 要 求 的 管理 者 的 类 型 确定 管理 者 
的 管理 能 力 特点 ， 然 后 给 受 测 者 类 似 于 工作 情境 的 任务 ， 要 受 
测 者 完成 ， 最 后 由 评判 者 按 事 先 规定 的 标准 对 受 测 者 的 操作 进 
行 评分 。 这 种 测验 的 信 、 效 度 都 比较 高 。 评 价 中 心 方法 中 吸 
收 了 问卷 测验 与 情境 测验 的 优点 ， 对 影 路 管理 水 平 的 7 种 评价 
要 素 【即行 政 管理 技能 、 人 际 关 系 技 能 、 智 力 、 续 效 的 稳定 
性 、 以 工作 任务 为 中 心 的 激励 能 力 等 ) 进行 系统 的 评价 。 严 格 
地 说 它 是 一 种 综合 测量 方法 ,其 特色 是 它 规定 的 7 种 能 力 要 
素 ， 测量 工具 包括 智力 测验 和 文件 框 测验 等 。 . 


(二 》 和 人 员 培 训 看 的 心理 特点 评估 

在 许多 情况 下 ， 选 拔 的 新 员工 上 岗 前 或 老 员 工 的 重新 安置 
前 都 要 进行 专门 性 的 培训 ， 以 使 他 们 尽快 提高 工作 技能 、 了 解 
工作 任务 ,和 干 好 工作 ， 那么 培训 或 选拔 安置 的 有 效 性 是 一 个 值 
得 考虑 的 问题 。 培 训 效果 与 培训 目标 是 否 一 致 ， 就 可 以 用 测量 
的 办 法 ， 这 里 测量 的 可 以 是 知识 、 技 能 水 平 的 提高 ， 也 可 以 是 
工作 态度 、 工 作 兴趣 的 改变 ， 这 些 内 容 都 可 以 用 成 就 测验 、 兴 
趣 或 态度 测量 的 办 法 进行 评估 。 


(三 》 工 作 人 员 的 效 绩 评估 

对 工作 人 员 进 行 效 绩 评 估 既 是 生产 管理 的 必要 措施 ， 也 是 
人 事 管 理 的 重要 依据 ， 这 里 主要 介绍 对 领导 者 行为 效果 及 员工 
心态 评估 的 PM 量 表 四 E。PM 理论 由 日 本 大 阪 大 学 心理 学 家 三 


多 韦 赎 卡西欧; 《人 事 心理 学 》， 北 京 ， 中 国人 民 大 学 出 版 社 ，1991 年 5 
月 出 版 ， 第 279 ~ 285 页 。 加 
联 包 、 资 文 输 主编 ;《 组 织 管理 心理 学 )》、 北 京 ， 北 京 科 学 技术 出 版 社 ， 
1988 年 出 版 ,第 348 ~ 356 页 
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隅 二 不 二 在 九州 大 学 任教 时 提出 。 他 认为 任何 一 个 团体 都 具有 
两 种 机 能 : 一 是 团体 的 目标 达成 机 能 ， 二 是 维持 强化 团体 或 组 
织 体 的 机 能 ， 前 一 种 机 能 简称 为 P〈performance) 即 工作 绩 
效 ， 后 一 种 机 能 简称 为 和 《maintenance)， 即 团体 维系 。 领 导 
者 的 作用 就 在 于 热 行 这 两 种 职能 ， 领 导 者 的 行为 也 就 包括 这 两 
个 因素 ， 如 果 以 P 为 横 坐 标 ，M 为 纵 坐 标 ， 并 在 P 和 MM 的 中 
点 各 画 一 条 平行 线 ， 领 导 者 类 型 就 可 分 为 4 种 (如 图 16.3 所 
示 )， 其 中 PM 型 最 好 ，pm 型 最 差 ,P 型 和 M 型 居中 。 如 何 
评价 领导 者 的 行为 类 型 以 及 工作 效果 ? 他 根据 广泛 调查 ， 从 数 
百 个 有 关 问 题 中 ,通过 项 目 分 析 和 因素 分 析 方 法 获得 了 60 个 
题目 ,构成 了 PM 问卷 调查 表 ， 它 由 P 因素 其 表 、M 因素 量 
表 和 情境 因素 量 表 构成 ， 其 中 P、M 量 表 各 10 个 题目 ，8 个 
情境 因素 各 5 个 题目 ,这 8 个 情境 因素 是 : 对 工作 的 意欲 ， 对 
待遇 的 满意 程度 ， 对 公司 的 满意 程度 ， 心 理 保健 ,集体 工作 精 
神 ， 会议 成 效 ， 信 息 沟通 ， 续 效 规范 。 这 个 评价 可 以 出 领导 者 
自己 评 ， 也 可 由 下 级 评 。 由 P、M 量 表 的 得 分 区 分 领导 类 型 ， 
用 情境 量 表 的 得 分 高 低 作 为 部 下 士气 、 态 度 和 满意 度 的 反映 ， 
它 也 是 领导 效果 的 表 证 。 


M 
Mp PM 


pm Pm 


Pp 
图 16.3 PM 领导 的 4 种 类 型 
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第 三 节 ”测量 在 教育 评价 中 的 应 用 


一 、 教 育 评价 概述 


谈 测 量 在 教育 评价 中 的 应 用 之 前 ， 弄 清 教 育 评价 本 身 的 舍 
义 是 十 分 必要 的 ， 而 评价 又 是 教育 评价 的 基础 ， 故 我 们 先 来 分 
析 评 价 。 与 评价 关系 最 密切 的 有 测量 、 测 验 和 考试 等 。 测 量 是 
“根据 一 定 的 法 则 用 数字 对 事物 加 以 确定 ”", 测量 的 方法 和 内 容 
十 分 广泛 ， 仅 就 方法 而 言 ， 就 有 以 观察 、 实 验 、 访 谈 等 进行 的 
测量 和 用 测验 法 进行 的 测量 。 测 验 只 是 测量 的 一 种 方法 ， 故 它 
” 比 测 量 的 范围 要 府 。 测 验 通 常 是 指 测量 一 个 行为 样本 的 系统 程 
序 ， 它 的 标准 化 程度 比较 高 ， 而 且 受 信 效 度 指标 的 制约 ， 这 是 
相当 一 部 分 测量 方法 所 不 具备 的 属性 。 而 考试 从 内 容 上 讲 ， 与 
测量 的 内 容 范围 同样 广泛 ， 但 从 方法 上 讲 与 测验 更 相似 ， 其 与 
测验 的 区 别 主 要 在 于 考试 多 用 于 有 目的 的 人 员 的 甄别 选拔 ， 就 
目前 的 现实 而 言 标准 化 程度 比较 低 ; 而 测验 不 限于 选拔 ,还 有 
鉴别 个 别 差 异 、 建 构 理 论 等 作用 。 总 之 ,测量 的 内 容 和 方法 是 
包容 性 均 较 大 的 一 个 概念 包含 测验 与 考试 。 

那么 什么 是 评价 呢 ? 通常 认为 评价 是 “对 测量 的 结果 进行 
价值 判定 "， 测 量 是 评价 的 前 担 ， 是 评价 的 必要 组 成 部 分 ， 没 
有 测量 ， 价 值 判 断 就 无 法 进行 。 

在 明确 了 评价 之 后 ， 我 们 再 来 谈 谈 教 育 评价 。 评 价 是 多 方 
而 的 。 可 以 是 教育 ， 也 可 以 是 心理 疾病 的 治疗 效果 ， 还 可 以 是 
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企业 管理 水 平等 。 那 么 什么 是 教育 评价 呢 ? 教育 评价 是 根 
据 教 育 目标 ， 在 系统 收集 资料 的 基础 上 ， 对 教育 过 程 及 其 结果 
进行 价值 判断 的 过 程 。 首 先 ， 教 育 评价 要 有 一 个 参照 标准 ， 这 
个 标准 就 是 教育 目标 ， 教 育 工作 的 好 坏 主 要 应 根据 教育 所 能 接 
近 教 育 目标 的 程度 ; 其 次 ， 教 育 评价 要 以 事实 为 基础 ， 没 有 一 
整套 切实 可 行 的 科学 程序 ， 得 不 到 符合 客观 实际 的 事实 ， 价 值 
判断 就 会 出 错误 ， 而 心理 与 教育 测量 的 一 整套 理论 和 以 这 套 理 
论 为 依据 开发 的 成 果 对 于 获得 客观 的 事实 是 很 有 帮助 的 ; 第 
三 ,教育 评价 的 内 容 是 对 教育 过 程 及 结果 的 评价 ， 是 一 种 动态 
性 评价 。 教 育 评价 的 内 容 有 广义 、 狭 义 之 分 ， 广义 的 评价 内 容 
包括 宏观 的 内 容 (如 教育 制度 、 教 育 规划 、 教 育 投资 、 教 育 环 
境 质量 等 等 ) 和 微观 的 内 容 〈 如 学 校 教育 目标 、 课 程 设 置 、 课 
堂 教学 质量 等 )， 而 狭义 的 评价 内 容 则 主要 以 教师 和 学 生 为 对 
象 ， 是 对 学 校 教育 活动 和 学 生发 展 质量 的 评价 ， 本 书 主要 取 狂 
义 评 价 内 容 。 

要 确定 一 项 工作 的 好 坏 ， 评价 是 基本 的 。 那 么 教育 评价 有 
什么 功能 呢 ? 其 功能 大 致 可 以 概括 为 3 点 ; 一 是 导向 功能 ， 由 
于 教育 评价 的 标准 是 教育 目标 ， 这 个 标准 的 确立 为 人 们 指明 了 
努力 方向 ， 一 旦 经 过 评价 发 现 偏离 了 教育 目标 ， 人 们 就 会 主动 
调整 自己 的 行为 ， 向 符合 目标 的 方向 前 进 ; 二 是 管理 功能 ， 科 
学 的 教育 评价 ， 可 使 人 们 明确 自己 的 现状 和 职责 ， 一 旦 人 们 发 
现 自己 的 不 足 ， 就 会 想 办 法 予以 改进 ， 从 客观 效果 上 讲 ， 达 到 
了 激发 人 的 动机 ， 调 动人 的 积极 性 的 效果 ; 三 是 诊断 和 选拔 功 
能 ， 这 是 教育 评价 的 基本 功能 ， 教 育 评价 可 以 使 我 们 了 解 人 的 
德 、 能 、 惑 、 绩 等 多 个 方面 的 情况 ， 是 进一步 施加 影响 或 进行 
选拔 的 依据 。 | 


中 ” 检 天 山 : 《教育 评价 学 )， 武 汉 。 武 充 工业 大 学 出 版 杜 1992 年 出 版 ,第 12 页 
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教育 评价 过 程 通常 分 为 3 个 阶段 : 第 一 是 确立 明确 的 可 操 
作 的 教育 目标 ， 作 为 对 事实 进行 判断 的 标尺 ， 这 个 标尺 的 明确 
与 否 、 正 确 与 否 会 直接 影响 评价 结果 ， 比 如 现在 主要 注重 素质 
教育 目标 ， 如 果 还 以 应 试 教育 的 观点 为 出 发 点 ， 那 么 评价 的 标 
准 就 会 发 生变 化 ,这 是 在 教育 评价 之 前 应 认真 考虑 的 ; 第 二 是 
根据 教育 目标 选择 或 编制 可 以 测量 这 些 教育 和 目标 的 工具 或 方 
法 ,选择 或 编制 测量 工具 或 方法 应 以 测量 理论 为 指导 ， 力 求 使 
用 最 有 效 的 手段 来 获取 事实 资料 ; 第 三 是 通过 测量 所 收集 的 资 
料 和 数据 对照 教育 目标 形成 一 个 价值 判断 。 心 理 与 教育 测量 
在 教育 评价 中 的 应 用 主要 体现 在 如 何 选择 或 编制 科学 的 工具 来 
测量 事物 ,为 进行 价值 判断 作 准 备 、 打 基础 。 


二 、 测 量 在 教育 评价 中 的 应 用 


测量 在 这 里 主要 是 对 人 的 测量 ， 在 教育 过 程 中 的 人 主要 有 
3 部 分 : 学 生 、 教 师 和 管理 者 ,下 面 分 别 就 这 3 类 对 象 的 测量 
作 些 介绍 。 


(一 ) 在 测量 学 生 的 学 习 与 发 展 状 况 中 的 应 用 

评价 学 生 的 学 习 与 发 展 ， 在 教育 评价 中 居于 主导 地 位 ， 它 
至 少 有 3 个 方面 的 作用 : 

(1) 摸 清 学 生 的 学 习 和 发 展 状 况 ， 是 因材施教 的 前 提 。 任 
何 一 种 成 功 的 教育 ， 如 果 不 是 建立 在 尊重 学 生 已 有 的 学 习 和 发 
展 状 况 的 基础 上 是 不 可 思议 的 。 班 主任 做 思想 工作 要 了 解 学 
生 ， 科 任 老病 要 教 好 课 要 了 解 学 生 ， 要 培养 学 生 的 健全 人 格 要 
了 解 学 生 。 | 
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(2) 弄 清 学 生 的 学 习 和 发 展 状况 ， 是 评价 教育 过 程 中 不 同 
阶段 成 效 的 依据 ， 比 如 在 单元 、 期 中 、 期 末 学 习 后 ， 为 了 检验 
教育 工作 的 好 坏 ， 便 少不了 全 面 了 解 学 生 的 学 习 与 发 展 状况 ， 
它 是 前 一 段 工作 的 结束 ， 又 是 进一步 进行 教育 工作 的 基础 。 

(3) 弄 清 学 生 的 学 习 和 发 展 状况 ， 是 评价 一 种 新 的 教育 思 
想 、 新 的 教育 措施 、 新 的 教育 技术 等 有 效 与 否 的 重要 指标 。 一 
项 工作 ， 如 果 只 是 因 蓝 传统 就 会 伏 化 ， 只 有 不 断 研究 、 改 革 才 
能 创新 ， 也 才 有 生命 力 。 为 了 不 断 提高 教育 工作 的 水 平 ， 进 行 
各 种 教育 研究 是 不 可 少 的 ， 而 任何 一 项 方法 、 措 施 的 终 级 目标 
都 是 塑造 、 培 养 人 ， 这 种 探索 的 评价 离 不 开学 生 的 学 习 和 发 展 
状况 。 

对 学 生 的 学 习 和 发 展 状况 的 评价 主要 有 这 样 几 个 方面 : 学 
生 的 品德 、 学 习 能 力 、 创 造 力 、 学 习 成 绩 、 职 业 兴 趣 、 性 格 、 
气质 、 心 理 健 康 状 况 等 。 下 面 分 别 介绍 ， 

1. 品德 测量 

前 面 一 章 的 品德 测量 中 ,介绍 了 品德 测量 中 标准 化 程度 比 
较 高 的 两 种 思路 : 一 是 情境 性 测验 ， 邵 蛤 特 松 等 的 诚实 测验 以 
及 柯 尔 伯 格 的 道德 发 展 水 平 测验 ; 二 是 问卷 测验 。 除 了 自 评 
外 ， 还 可 以 通过 他 人 如 家 长 、 教 师 、 同 学 等 进行 评估 ， 不 论 哪 
种 方法 ， 严 格 地 说 ， 对 品德 这 种 复杂 的 心理 品质 的 测量 都 显得 
太 简 单 、 粗 糙 、 片 面 。 尽 管 如 此 ， 这 些 测量 办 法 都 能 部 分 地 用 
于 评价 品德 。 

2. 学 习 动 机 测验 , 

一 般 而 言 学 习 动机 是 学 习 的 直接 动力 ， 在 学 习 动 机 中 研究 
较 多 的 是 成 就 动机 ， 通 常 把 它 分 成 追求 成 功 的 动机 和 避免 失败 
的 动机 ， 另 外 对 成 败 归 因 的 方式 亦 很 重要 。 

这 里 介绍 两 个 测验 : 一 是 叶 任 敏 等 〈1988)》 修订 的 由 吉 斯 
米 (J.Gjesme) 与 尼 加 德 《R.Nygard) 1970 年 编制 的 《成 就 
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动机 量 表 》( 简 称 AMS)。 它 主要 用 来 测量 人 追求 成 功 的 动机 . 
和 如 免 失 数 的 动机 ， 在 编制 者 看 来 ， 成 就 动机 强 的 人 向 往 成 
功 、 有 自信 心 ， 对 成 线 感到 骄 做 ， 喜 欢 富 于 冒险 性 、 挑 战 性 和 
难度 高 、 充 分 发 挥 个 人 能 力 的 工作 ， 而 且 对 失败 并 不 感到 特别 
得 在 意 和 盖 愧 。 该 量 表 共 有 30 道 题 ， 前 面 15 道 题 测量 追求 成 
功 的 动机 ， 后 面 15 题 测量 避免 失败 的 动机 ， 有 适合 中 学 生 和 
大 学 生 的 常 模 ， 个别、 团体 施 测 均 可 ，5 ~ 10 分 钟 即 可 完成 。 

另 一 份 成 就 动机 测验 由 周 步 诚 等 1991) 修订 ， 主 要 测 
量 成 就 动机 、 考 试 焦虑 、 成 败 归 因 、 要 求 水 平 4 个 方面 。 这 个 
测验 把 成 就 动机 看 成 因 活动 性 质 而 异 ， 它 包括 知识 学 习 方面 的 
成 就 动机 、 图 画 和 美工 音乐 等 方面 的 成 就 动机 。 成 败 归 因 有 两 
类 ; 一 是 外 部 归 因 ， 一 是 内 部 归 因 ， 内 部 归 因 者 学 习 动 机 强 ， 
外 部 归 因 者 学 习 动 机 弱 。 这 里 的 要 求 水 平 是 指 在 假设 的 情境 中 
个 人 期 望 完成 任务 的 水 平 ， 认 为 成 功 动机 强 的 人 的 要 求 水 平 
高 ,回避 失败 动机 强 的 人 的 要 求 水 平 低 。 这 个 测验 适合 于 小 学 
四 年 级 至 高 中 三 年 级 的 学 生 ， 每 个 年 级 小 学 段 、 初 中 段 、 高 中 
段 都 有 常 模 ， 该 测验 的 分 半 信 度 为 0.83 ~ 0.89， 重 测 信和 度 为 
0.79 ~0.86， 由 以 学 习 成 绩 作 效 标的 评价 看 ， 效 度 也 比较 满 
意 。 

3. 学 习 适 应 性 测验 

学 习 适 应 性 是 一 种 学 习 适 应 能 力 ， 是 指 克服 困难 取得 较 好 
学 习 效果 的 一 种 倾向 ， 学 习 适 应 性 包括 热情 、 有 计划 地 学 习 、 
听课 方法 、 读 书 和 记 笔 记 的 方法 、 记 忆 和 思考 的 方法 、 应 试 方 
法 、 学 习 环境 等 。 周 步 诚 等 《1991)@ 修订 了 一 个 学 习 适 应 性 
测验 ， 适 用 于 小 学 一 年 级 至 高 三 的 学 生 ， 为 了 使 测验 有 针对 
性 ， 不 同 的 年 级 段 有 不 同 的 内 容 ， 其 年 级 段 有 小 学 一 、 二 年 级 


中 周 步 诚 :《 学 习 动机 测验 指导 手册 》，1991 年 出 版 。 
四 ” 周 步 诚 :《 学 习 适 应 性 测验 指导 手册 》、1991 年 出 版 ， 
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段 ， 小 学 三 、 四 年 级 段 ， 小 学 五 、 六 年 级 段 和 初中 与 高 中 段 。 
其 测验 的 主要 内 容 有 学 习 态 度 、 学 习 方 法 、 学 习 环 境 等 ， 另 外 
还 专门 设立 了 “回答 一 致 性 ”这 一 回答 有 效 性 指标 。 该 测验 的 
分 半 信 度 为 0.71 ~ 0.86， 重 测 信 度 为 0.75 ~ 0.88， 用 成 绩优 
秀和 成 绩 差 的 学 生 在 分 测验 和 总 测验 上 的 反应 结果 进行 差异 考 
验 ， 发现 有 预期 的 差异 ， 表 明 有 一 定 建 构 效 度 。 

4. 智力 测验 

智力 是 影响 学 生 学 习 的 重要 因素 ， 也 是 教育 培养 的 目标 ， 
在 教育 评价 中 经 常 遇 到 。 适 合 于 评价 学 生 智 力 的 测验 较 多 ， 这 
里 主要 推荐 3 种 : 一 种 是 《 韦 克 斯 勒 智 力 测验 》， 有 儿童 智力 
测验 (适合 于 6 ~ 16 岁 儿 童 ) 和 幼儿 智力 测验 (适合 于 4 ~ 
6.5 岁 儿 童 ) ， 前 一 种 由 北京 病 范 学 院 林 传 澡 和 北京 师范 大 学 
张 厚 虑 主 修 ， 后 一 种 由 湖南 医科 大 学 歼 廊 先 主 修 。 第 二 种 是 
《中 国 比 内 测验 》 (适合 于 2~ 18 岁 的 儿童 和 青少年 )， 由 北京 
大 学 吴 天 敏 修订 。 第 三 种 是 《 瑞 文 标准 推理 测验 》 (适合 于 5 
~ 70 岁 的 人 )， 其 特点 是 它 主要 由 图 画 构成 ， 对 文化 知识 的 要 
求 较 低 ， 还 可 以 进行 团体 测验 。 这 个 测验 有 两 个 修订 本 ， 一 个 
由 北京 师范 大 学 张 厚 紧 等 覆 订 ， 一 个 由 华东 师范 大 学 李 丹 等 修 
订 。 

5. 性 向 测验 

它 主要 用 于 了 解 学 生 的 潜在 优势 ， 即 经 过 同等 训练 个 人 的 
相对 优势 。 目 前 经 过 修订 的 测验 有 《一 般 能 力 倾向 成 套 测 验 》 
(GATB》 的 两 个 修订 本 ， 一 个 是 由 上 海 市 教育 科学 研究 所 高 
德 建 、 顾 天 祯 等 修订 的 《中 学 生 一 般 能 力 倾 向 成 套 测验 》 ( 简 
称 SS- GATB)O, 测量 学 生 的 9 种 能 力 ， 即 一 般 智 力 〈G)、 
言语 能 力 (V)、 数 理 能 力 (N)、 空 间 判 断 〈S)、 图 形 知觉 


全 ”高 德 建 等 :《 中 学 生 一 般 能 力 千 向 成 套 测验 指导 手册 》，1988 年 出 版 。 
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(P)、 符 号 知觉 (Q)、 运 动 协调 (K)、 手 指 灵 巧 (F) 和 手工 
灵巧 〈M)。 这 些 分 量 表 可 以 分 成 三 类 : 学 习 能 力 (包括 一 般 
智力 、 言 语 能 力 和 数理 能 力 ) 、 知 觉 能 力 〈 包 括 空间 判断 、 图 
形 知觉 和 符号 知觉 ) 和 操作 能 力 (包括 运动 协调 、 手 指 灵 巧 和 
手工 灵巧 )， 样 本 主要 是 上 海 市 中 学 生 ， 有 初 一 至 高 二 5 个 年 
级 的 常 模 ， 量 表 由 百 分 位 数 计 分 。 另 一 个 是 由 华东 师 大 心理 系 
戴 忠 恒 修订 。 这 个 修订 版 与 前 面 一 个 主要 不 同 的 是 : @ 它 
们 的 样本 范围 不 同 。 前 者 为 上 海 市 样本 ， 后 者 为 全 国 十 吃 个 省 
市 、 自 治 区 、 直 辖 市 的 17 个 中 等 以 上 城市 。 四 它们 的 对 象 不 
同 。 前 者 为 初 一 至 高 二 5 个 年 级 ， 后 者 为 初 二 至 高 三 5 个 年 
级 。 鲜 它们 的 修订 蓝本 不 同 。 前 者 以 美国 版 为 主 ， 后 者 主要 以 
GATB 日 本 1983 年 第 四 次 修订 版 为 主 。 除 了 人 上述 成 套 性 向 测 
验 外 ， 还 有 单项 测验 ， 如 音乐 、 美 术 、 文 书 、 机 械 能 力 等 性 向 
测验 。 这 部 分 内 容 可 参见 上 一 节 有 关 部 分 。 

6. 创造 力 测验 

创造 力 是 现代 教育 的 中 心目 标 之 一 ， 在 这 方面 比较 知名 的 
测验 主要 是 《 托 伦 斯 创造 思维 测验 》 和 《 南 加 利 福 尼 亚 大 学 测 
验 》， 这 里 不 多 介绍 ， 相 关内 容 参 见 第 十 二 章 第 三 节 。 

7. 学 习 能 力 测验 

林 传 易 和 张 厚 夺 等 根据 澳大利亚 教育 学 会 制订 的 《学 习 能 
力 测验 》 和 修订 了 适合 于 我 国 小 学 四 、 五 年 级 和 初中 一 、 二 年 的 
《少年 儿童 学 习 能 力 测 验 》， 该 测验 是 一 种 团体 测验 ， 由 3 个 分 
测验 组 成 ， 即 : 人 @ 找 同义词 ; @ 算 术 推理 ; 图 语言 类 比 。 该 测 - 
验 主要 测试 了 北京 、 天 津 和 西安 三 地 的 1080 名 小 学 四 、 五 年 
级 和 初中 一 、 二 年 级 的 学 生 ， 测 验 的 分 半 信 度 在 0.62 ~0.90 
之 间 ， 测 验 成 绩 与 语文 、 数 学 的 相关 为 0.33 和 0.48， 说明 该 


外 ” 工 忠 恒 : 和 ROLL 《心理 
科学 》，1994 年 1 月 出 版 , 第 16~20 页 
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测验 是 有 效 的 ,但 尚 需 进 一 步 扩 大 测验 题目 ， 更 广泛 地 取样 ， 
取得 更 大 范围 的 常 模 。 

8. 学 习 成 绩 测 验 

学 习 成 绩 测验 是 平时 用 得 最 多 、 最 普遍 的 一 种 工具 ， 然 而 
就 我 国 目 前 的 标准 化 程度 来 讲 ， 水 平 也 是 比较 低 的 ， 主 观 随意 
性 比较 大 ， 对 具体 内 容 亦 没有 开发 出 相应 的 建立 了 一 定 信 、 效 
度 的 工具 。 我 们 应 该 在 平时 的 工作 中 ,不 断 总 结 ， 积累 材料 ， 
使 之 逐步 走向 规范 化 、 科 学 化 的 轨道 。 

9. 职业 兴趣 测验 

随 着 我 国人 才 市 场 的 逐步 建立 ， 人 事 管理 的 逐步 规范 化 ， 
尊重 人 的 心理 特点 ， 考 虑 人 的 个 人 兴趣 是 大 势 所 趋 ， 在 中 等 教 
育 中 ， 学 生 有 两 次 分 流 ， 如 何 了 解 学 生 的 兴趣 ， 使 他 们 学 习 他 
们 训 欢 的 专业 或 职业 ， 是 充分 调动 人 的 积极 性 和 挖 据 人 的 潜力 
的 关键 。 国 内 这 方面 的 工作 正在 逐步 展开 ， 在 没有 现成 的 职业 
兴趣 测验 工具 之 前 ， 引 进 和 修订 阔 外 已 有 的 测验 是 一 个 省 时 省 
力 的 办 法 。 上 海 市 进行 职业 辅导 时 ， 就 借鉴 了 在 世界 范围 具有 
广泛 适用 性 的 SDS (参见 上 一 章 第 二 节 有 关内 容 )， 效 果 尚 可 。 

10. 个 性 测验 

这 方面 的 测验 修订 和 编制 是 比较 多 的 ， 从 适 育 评价 的 测验 
看 ， 占 主导 地 位 的 还 是 自 陈 问卷 ， 投 射 测 验 和 情境 测验 编制 和 
修订 得 很 少 。 共 内 容 上 讲 个 性 测验 中 与 教育 评价 有 关 的 可 分 成 
两 个 方面 : 一 是 正常 者 的 个 性 ， 二 是 不 健康 或 病态 者 的 个 性 ， 
当然 这 里 也 不 排除 有 些 个 性 问卷 中 包括 部 分 不 健康 或 病态 个 
性 , 但 以 正常 个 性 为 主 。 从 正常 个 性 测验 方面 看 ， 目 前 主要 有 
《卡特 尔 16 种 人 格 因 素 问 卷 )、《 儿 童 人 格 问卷 》 (CPQ)、《YG 
性 格 问卷 》 等 ; 从 诊断 心理 不 健康 或 病态 个 性 方面 看 ， 主 要 有 
《 艾 森 克 人 烙 问卷 》( 儿 童 )、《 症 状 自 评 量 表 》、( 心 理 健康 诊断 
测验 》({MHT) 等 。 除 《心理 健康 诊断 测验 》 外 ， 其 余 的 测验 
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前 面 都 介绍 过 ， 这 里 简单 介绍 一 下 这 个 测验 。 这 个 测验 是 根据 
日 本 铃木 清 等 人 编制 的 “不 安 倾向 诊断 测验 ”修订 而 成 的 ， 适 
合 于 我 国 中 小 学 生 心 理 键 康 状况 的 诊断 。 该 测验 可 以 团体 施 
测 ， 适 合 于 小 学 四 年 级 至 高 中 三 年 级 的 学 生 ， 测验 由 8 个 分 量 
表 梅 成 ， 即 学 习 焦 虚 、 对 人 焦 咏 、 孤 独 倾向 、 自 焉 倾向 、 过 敏 
倾向 、 身 体 症 状 、 恺 履 倾 向 和 冲动 倾向 ， 该 测验 没有 效 度量 表 
( 即 说 谎 量 表 ) ， 油 验 的 解释 分 总 体 解 释 和 分 量 表 解 释 。 该 测验 
的 分 半 信 和 度 五 年 级 到 初中 三 年 级 以 及 高 中 二 年 级 在 0.84 ~ 
0.88 之 间 ， 全 量 表 的 分 半 信 和 度 为 0.91， 重 测 信 庶 系 数 在 两 个 
月 之 后 进行 ， 上述 5 个 年 级 的 重 测 信和 度 系 数 在 0.667 ~ 0.863 
之 间 ， 信 和 度 较 高 ; 从 效 度 方面 看 ， 该 测验 与 《明尼苏达 多 项 人 
格 问卷 》 相 关 量 表 的 相关 为 0.59， 对 精神 科 医 生 诊断 为 有 神 
经 定 或 精神 病 者 施 测 的 结果 表明 ， 其 有 一 定 的 一 致 性 ， 各 分 量 
表 之 间 的 相关 大 多 数 不 到 0.40， 而 且 各 内 容 分 量 表 与 总 分 的 
相关 在 0.536 ~ 0.70 之 间 ， 表 明 有 一 定 的 结构 效 度 ， 总 之 该 测 
验 的 效 度 也 是 比较 理想 的 。 


(二 ) 测量 在 教师 与 管理 者 评价 中 的 应 用 

对 教师 的 评价 主要 有 这 样 几 个 方面 ,一 是 教师 的 资格 评 
定 ， 即 教师 的 专业 知识 水 平 是 否 达到 基本 要 求 ， 专 业 知识 包括 
文化 知识 和 教育 心理 学 方面 知识 ; 二 是 教师 的 教学 艺术 水 平 的 
评定 ; 即 教师 的 教学 能 力 ; 三 是 教师 的 管理 水 平 的 评定 ， 即 教 
师 在 学 生 班 级 管理 方面 的 能 力 ; 四 是 教师 的 个 性 评定 。 其 中 ， 
教师 的 资格 和 教学 艺术 水 平 是 其 中 的 核心 内 容 。 在 教师 评定 方 
面 ， 虽 说 有 一 些 办 法 和 措施 ， 但 标准 化 水 平 还 不 高 ， 还 有 待 进 
一 步 研 究 。 

对 于 教育 管理 者 的 评价 ， 也 不 是 十 分 系统 、 成 熟 ， 可 参照 
第 二 节 的 有 关内 容 予 以 评价 。 
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练习 与 思考 


1. 心理 与 教育 测量 在 心理 咨询 中 有 哪些 主要 的 应 用 领域 ? 
有 哪些 测验 可 资 利用 ? 

2. 心理 与 教育 测量 在 人 事 测评 中 有 哪些 主要 应 用 领域 ? 
有 哪些 测验 可 资 利用 ? 

3. 心理 与 教育 测量 在 教育 评价 中 有 哪些 主要 应 用 领域 ? 
有 哪些 测验 可 资 利用 ? 

4”. 我 国 心 理 与 教育 测量 在 三 种 应 用 领域 还 有 哪些 要 完善 
或 填补 空白 的 地 方 ? 
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第 十 七 章 “心理 与 教育 测量 
理论 的 新 发 展 


本 章 提 要 ; 

便 经 典 测量 理论 的 缺陷 

全 潜在 特质 理论 

全 项 目 特 征 消 数 写 特征 曲线 

傅 项 目 参 数 和 被 试 能 力 信 计 

便 项 目 反 应 理论 的 优良 性 质 

傅 项 目 反 肌理 沦 的 应 用 

便 概 化 理论 的 基本 思想 及 测验 情境 关系 说 
命 测验 设计 

便 C 研究 与 D 研究 
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第 一 书 ”项目 反 应 理论 简介 
一 、 经 典 测 量 理论 的 局 限 


经 过 前 十 六 章 的 学 习 ， 我 们 对 建立 在 真 分 数理 论 基础 上 的 
经 典 测量 理论 (Classical Test Theory， 简 记 为 CTT) 已 经 有 了 
比较 详细 的 了 解 ， 甚 至 已 在 测验 的 实践 中 对 它 有 了 上 比较 深刻 的 
认识 。 历 史上 ， 经典 测量 理论 无 论 是 在 理论 的 基础 研究 方面 还 
是 在 实践 的 指导 方面 ， 均 为 心理 与 教育 测验 的 发 展 作出 了 巨大 
贡献 。 当 今 ， 经 典 测量 理论 在 测量 研究 中 仍然 占据 着 非常 重要 
的 地 位 ， 继 续 指导 着 多 种 测验 的 编制 和 应 用 ， 我 们 不 能 轻视 对 
经 典 测量 理论 的 学 习 和 研究 。 

但 是 ， 经 典 测 量 理论 的 理论 框架 是 有 先天 缺陷 的 ， 在 测验 
实践 飞速 发 展 的 今天 ， 已 日 益 显示 出 它 的 局 根性 。 

第 一 是 经 典 测量 论 理 的 信和 度 估计 精度 不 高 。 根 据 真 分 数理 
论 假设 ,测验 原始 分 数 X 线性 分 解 为 测验 真 分 数 T 和 误差 分 
数 玉 两 部 分 ,并且 进一步 假设 真 分 数 是 测验 原始 分 数 的 期 望 ， 
误差 分 数 与 真 分 数 相互 独立 ， 从 而 导出 测验 信和 度 为 真 分 数 方差 
与 原始 分 数 方差 之 比 。 且 不 说 这 一 连 串 假设 的 可 车 性 ， 就 说 这 
结果 ， 如 此 定义 的 测验 信和 度 并 无 助 于 信 度 的 估计 ， 因 为 在 定义 
中 除 原始 分 数 方差 可 得 之 外 ， 真 分 数 方差 与 误差 分 数 方差 都 是 
无 从 求 取 的 。 为 实际 估计 测验 信 度 ， 经 典 理论 又 提出 了 平行 测 
验 概 念 或 者 条 件 稍 弱 一 点 的 z 等 价 测验 概念 ， 从 而 推演 出 若干 
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信和 讼 估计 公式 。 但 是 ， 严 格 的 平行 测验 是 不 存在 的 ,7 等 价 的 
测验 也 是 很 难 获取 的 ， 由 此 造成 了 实际 估计 的 信和 度 精度 就 比较 
差 。 测 验 信 度 是 测量 误差 估计 的 重要 指标 ， 测 验 编制 的 一 个 重 
要 原则 就 是 要 降低 测验 误差 ， 提 高 测验 质量 ,而 作为 测验 误差 
大 小 的 指标 一 一 测验 信 度 本 身 却 还 不 能 准确 估计 ， 不 能 说 不 是 
一 御 憾 事 。 因 此 ， 改 造 经 典 理 论 的 信和 度 概 念 ， 提 高 信 度 估计 的 
准确 性 ， 成 了 测验 理论 研究 的 一 个 重大 课题 。 

第 二 是 经 典 测验 理论 的 误差 指标 笼统 单一 、 不 精细 。 回 忆 ， 
第 三 章 内 容 ， 对 于 一 个 信和 度 为 Yi* 的 测验 ， 经 典 理论 导出 测验 
测量 标准 误差 为 SE = S,. VI- yw ， 以 此 可 估计 真 分 数 置信 区 
间 。 但 是 我 们 应 该 注意 到 ， 这 个 SE 是 所 有 被 试 测 量 误 差 的 标 
准 差 ， 或 称 为 测验 平均 标准 误差 ， 因 此 此 值 可 以 用 来 描写 所 有 
被 试 的 测量 精度 。 从 应 用 上 讲 ， 这 样 非常 的 方便 ,但 实际 上 却 
是 经 典 理论 的 一 大 不 足 。 因 为 ,不 仅 是 不 同 的 测量 有 不 同 的 测 
量 误 差 ， 相 同 的 测量 对 于 不 同 的 被 试 也 会 有 不 同 的 测量 误差 。 
我 们 知道 ， 一 个 被 试 的 水 平 与 一 份 测验 的 难度 相当 ， 测 量 的 结 
果 就 会 比较 准确 ; 被 试 水 平 低 于 或 高 于 测验 难度 ， 测 验 结果 的 
误差 就 会 增 大 ， 并 且 这 种 增 大 的 趋势 跑 着 被 试 水 平 离 测验 难度 
的 距 高 越 远 而 越 严 重 。 因 此 ， 用 一 个 笼统 单一 的 或 称 作 为 平均 
的 误差 指标 来 刻 通 所 有 被 试 的 测量 精度 ， 是 难以 令 人 满意 的 。 
所 以 寻求 针对 每 个 被 试 的 更 为 精细 的 测验 误差 指标 ,是 测量 理 
论 研究 上 急需 解决 的 一 个 重要 问题 。 

第 三 是 经 典 测 验 理论 各 种 参数 的 估计 对 样本 的 依赖 性 太 
大 。 经 典 测量 理论 构造 了 一 个 完整 的 理论 体系 ， 同 时 设计 了 一 
系列 的 参数 指标 来 描写 测量 的 各 方面 特性 。 这 些 指标 中 最 主要 
的 就 是 测验 的 信和 度 、 效 度 和 试题 的 难度 、 区 分 度 这 四 个 “ 度 ”， 
要 编制 出 高 质量 的 测验 离 不 开 对 测验 “四 度 ” 的 估计 。 经 典 测 
验 理论 提出 了 用 相应 的 样本 统计 景 值 作 为 总 体 参数 估计 值 的 方 
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法 。 但 是 在 经 典 理 论 中 ， 这 些 参数 的 估计 对 样本 的 依赖 性 是 很 
大 的 。 最 明显 的 例子 就 是 题目 难度 ， 对 于 同一 题目 ， 若 样本 的 
群体 水 平 较 低 ， 就 有 较 高 的 难度 估计 值 ， 若 样本 的 群体 水 平 较 
高 ， 又 会 形成 较 低 的 难度 估计 值 。 题 目 区 分 度 从 本 质 上 讲 是 被 
试 所 获 题 分 与 总 分 之 闻 的 相关 系数 ， 相 关系 数 的 估计 受 样本 全 
举 的 影响 很 天。 相同 的 题目 ， 样 本 全 距 越 大 ， 相 关系 数值 越 
大 ， 样 本 全 距 越 小 ， 相 关系 数值 越 小 ， 测 验 的 信 度 和 效 度 也 主 
要 通过 相关 计算 估计 ， 因 此 同样 受到 样本 全 曙 的 影响 。 经 典 测 
验 理 论 为 避免 样本 偏 倾 而 导致 参数 估计 误差 过 大 ， 特 别 强调 抽 
样 时 要 注意 保证 样本 对 总 体 的 代表 性 。 从 理论 上 讲 ， 我 们 可 以 
通过 科学 的 随机 抽样 保证 样本 的 代表 性 ， 但 这 毕竟 是 “随机 ” 
抽样 ， 存 在 有 时 偏差 较 小 、 有 时 偏差 较 大 的 可 能 ， 更 何况 有 时 
限于 客观 条 件 ， 还 得 不 到 真正 “随机 ”的 样本 。 比 如 高 等 教育 
自学 考试 ， 其 考生 的 流动 性 很 大 ， 导 致 考生 流动 的 因素 很 复 
杂 ， 要 在 这 样 很 不 稳定 的 群体 中 通过 “随机 ”抽样 ， 获 得 一 个 
对 总 体 有 充分 代表 性 的 样本 是 非常 困难 的 。 这 样 情况 的 直接 结 
果 是 ， 所 估 各 种 测量 参数 指标 对 测验 编制 的 指导 价值 就 非常 有 
限 。 能 否 找 到 对 被 试 样本 依赖 性 较 小 甚至 没有 依赖 的 测验 参数 
指标 呢 ? 这 在 经 典 理论 的 框架 内 是 难以 办 到 的 。 
第 四 是 经 典 测量 理论 参数 指标 之 间 的 配套 性 较 差 。 测 量 工 
作者 应 用 测 题 去 测 被 试 ， 理 所 当然 要 选择 最 适合 被 试 水 平 的 试 
题 。 在 经 典 测量 理论 中 ， 题 目 水 平 的 刻画 量 是 题 月 难度 ， 被 试 
水 平 的 刻画 量 是 卷 面 得 分 。 我 们 知道 ， 题 目 难 度 的 参照 系 是 被 
试 群体 ， 难 度 0.2 表示 该 试题 有 80% 的 被 试 得 分 ; 被 试卷 面 
得 分 的 参照 系 是 试卷 的 全 部 试题 ， 百 分 制 试卷 上 被 试 得 分 80 
表示 被 试 在 此 特定 试卷 上 的 得 分 率 为 80%， 但 却 不 能 推断 出 
试题 恰好 与 有 80% 试 卷 得 分 率 的 被 试 匹配 。 换 名 话说 ,在 经 
典 测验 理论 中 ,依靠 现 有 的 参数 指标 ， 找 不 到 验证 某 试 题 是 否 
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恰好 匹配 某 被 试 的 计量 方法 。 这 就 导致 编制 测验 ， 选 择 试题 时 
带 有 一 定 的 盲目 性 ， 究 其 原因 ， 就 是 因为 试题 难度 和 被 试 水 平 
这 两 个 参数 指标 未 能 定义 在 同一 个 参照 系 上 ， 未 能 应 用 同一 种 
度量 指标 。 虽 然 两 个 指标 各 自 的 意义 均 非 常 清晰 ， 但 测验 实践 
却 迫 切 需 要 它们 能 够 相互 配套 、 高 度 统一 起 来 。 

更 广泛 的 研究 发 现 ， 经 典 理 论 的 所 有 题目 参数 与 被 试 水 平 
参数 之 间 的 关系 都 是 比较 笼统 含混 的 。 一 份 所 有 试题 参数 都 已 
知 的 试卷 测试 一 个 水 平 参数 已 知 的 个 体 ， 其 结果 分 数 将 会 是 多 
少 ， 测 量 的 误差 将 又 会 是 多 大 ， 都 无 法 预先 估计 ， 说 明 这 些 参 
数 指标 对 测验 编制 的 指导 价值 就 相当 的 有 限 了 。 

能 否 设计 出 一 套 相 互 配 套 的 参数 指标 ， 同 时 寻找 到 一 种 计 
量 方法 ， 把 题目 参数 与 被 试 水 平 参数 之 间 的 关系 精确 地 揭示 出 
来 呢 ? 看 来 经 典 测量 理论 难以 解决 这 个 问题 。 

经 典 测验 理论 用 于 目标 参照 性 测验 的 编制 指导 ， 比 起 用 于 
常 模 参 照 性 测验 显得 比较 苍白 无 力 ， 这 除了 历史 的 原因 ， 也 还 
有 理论 框架 的 先天 局 限 。 再 有 ， 现 代 社 会 追求 的 是 高 效率 ， 传 
统 的 测量 所 用 试卷 千 估 一面 ， 很 难说 这 样 的 试卷 对 任何 被 试 都 
是 效率 很 高 的 。 适 合 于 高 水 平 被 试 的 题目 ， 低 水 平 被 试 作答 基 
本 上 是 无 效劳 动 ; 同样 ， 适 合 于 低 水 平 被 试 的 题目 ， 高 水 平 补 
试 解答 同样 无 助 于 对 他 们 的 鉴别 。 但 是 由 于 “统一 比较 ”的 需 
要 ， 却 又 不 得 不 艇 ， 因 此 也 就 不 可 能 是 高 效率 的 。 

能 否 有 对 指导 目标 参照 性 测验 同样 有 力 的 测验 理论 呢 ? 能 
否 设 计 出 分 别 适用 于 不 同 的 被 试 ， 却 又 使 测试 结果 一 样 ， 可 以 
相互 比较 的 测验 呢 ? 随 着 社会 政治 、 经 济 、 文 化 的 发 展 ， 我 们 
需要 编制 更 多 内 容 丰 富 、 功 能 齐全 、 适 应 面 更 广 、 测 验 精 度 更 
高 的 测验 ， 这 就 需要 有 基础 理论 更 为 扎实 ， 科学 性 、 实 用 性 更 
强 的 测验 理论 来 弥补 经 典 理论 的 不 足 。 项 目 反 应 理论 (Item 
Response Theory, 简 记 为 IRT) 就 是 应 这 种 需要 而 产生 的 新 的 
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测验 理论 之 一 。 
一 、 项 目 反应 理论 的 基础 知识 


(一 ) 潜在 特质 理论 简介 

在 日 常生 活 中 我 们 不 难 发 现 ， 人 们 的 行为 举止 就 好 像 处 于 
某 些 心理 品质 的 定量 控制 之 中 ， 甚 至 于 觉得 好 像 是 这 些 心 理 品 
质 实际 上 决定 了 他 的 一 切 行为 ， 这 是 诱惑 心理 学 家 研究 人 类 心 
理 品质 的 起 因 。 但 是 至 今 没有 任何 迹 像 证 明 这 些 心理 量 存在 于 
人 的 物理 或 生理 知觉 之 中 。 心 理学 上 把 这 类 制约 大 的 行为 的 心 
理 特征 称 为 心理 特质 ， 同 时 这 种 心理 特 硕 并 没有 明确 它 的 物理 
与 生理 属性 ， 匡 此 又 被 称 为 潜在 特质 (Latent Trait)。 如 此 定 
义 的 潜在 特质 仅仅 是 一 种 统计 结构 ， 并 不 能 说 明 它 是 一 种 物理 
的 或 生理 的 实体 。 

心理 和 教育 测量 的 任务 就 是 要 定量 地 估计 个 体 在 每 一 种 这 
样 的 潜在 特质 量 表 上 的 位 置 ， 然 后 又 据 所 估 个 体 的 特质 位 置 去 
解释 或 预 涡 个 体 在 类 似 境 况 下 将 会 产生 的 行为 反应 。 在 认 知 测 
量 中 ， 潜 在 特质 通常 被 称 作 为 被 试 能 力 (应 该 注意 到 它 与 理论 
心理 学 常用 的 能 力 概 念 的 区 别 )。 但 是 ， 人 类 的 这 些 心理 特征 
或 直接 称 其 为 潜在 特质 ， 由 于 它 的 潜在 性 〈 即 物理 、 生 理 属 性 
不 明 )， 至 今 还 未 被 它 的 主体 直接 探 明 ， 这 就 给 心理 与 教育 的 
测量 带 来 了 很 大 的 困难 。 测 量 学 家 只 能 藉 助 于 一 些 可 观察 的 间 
接 变量 来 鉴别 与 定义 这 些 潜在 特质 ， 并 且 也 只 能 用 同样 的 方法 
来 探查 : 在 约束 已 知行 为 发 展 的 过 程 中 ， 有 哪些 潜在 特质 起 了 
比较 重要 的 作用 ; 用 这 样 的 方法 来 考察 某 种 潜在 特质 将 对 人 的 
哪些 行为 发 展 产生 重要 影响 。 
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以 上 所 述 构 成 心理 测量 研究 中 潜在 特质 理论 的 基本 内 容 。 

心理 测量 学 进一步 将 潜在 特质 数学 模型 化 。 心 理 测量 学 将 
其 定义 为 : 对 于 某 一 特殊 行为 的 发 展 起 作用 的 所 有 潜在 特质 的 
集合 ， 称 作为 潜在 特质 空间 (Latent Trait Space)。 在 潜在 特 
质 空间 中 ， 互 相 独 立 的 潜在 特质 的 个 数 ， 称 作为 这 个 特质 空间 
的 维度 。 潜 在 特质 空间 可 能 是 多 维 的 ， 也 可 能 是 单 维 的 。 一 个 
K 维 的 潜在 特质 空间 可 以 用 向 量 的 形式 表示 为 ， 

H= (9，9，9，…6x) 

包含 了 决定 某 一 行为 发 展 的 所 有 潜在 特质 的 特质 空间 称 作 
为 全 特质 空间 。 全 特质 空间 的 维度 也 是 有 高 低 的 ， 其 数值 完全 
取决 于 所 研究 行为 的 性 质 。 特质 空间 的 维度 越 高 研究 越 困 难 。 

心理 测量 学 者 首先 关心 的 是 查 明 潜在 特质 空间 的 维度 ， 查 
明 各 维特 质 在 决定 人 的 行为 时 所 作 的 贡献 的 大 小 。 心 理 测 量 学 
者 更 关心 的 是 能 估计 出 个 体 在 这 些 潜在 特质 上 的 位 置 ， 并 且 能 
预测 具有 特定 的 特质 位 置 的 个 体 其 行为 发 展 的 方向 和 水 平 。 这 
些 任务 实际 上 是 心理 测量 学 研究 的 主要 内 容 。 潜 在 特质 理论 实 
际 上 是 一 切 心理 测量 理论 研究 的 基础 ， 只 是 在 应 用 潜在 特质 理 
论 时 各 自 的 角度 和 起 点 及 其 结果 的 明晰 度 不 同 黑 了 。 


《二 》 题目 一 一 总 分 回归 与 项 目 特征 曲线 

以 认 知 测量 为 例 ， 无 论 是 测验 编制 者 还 是 测验 使 用 者 都 有 
这 样 的 经 验 ， 那 就 是 对 于 一 道 编 制 质量 好 的 题目 ， 全 卷 总 分 较 
低 的 被 试 在 该 题目 上 的 正确 作答 概率 较 小 ， 而 全 卷 总 分 较 高 的 
被 试 在 该 题目 上 的 正确 作答 概率 相应 较 大 ， 这 种 伴随 着 总 分 的 
由 低 到 高 ， 题 目 正确 作答 概率 由 小 到 大 的 变化 基本 上 是 一 种 连 
续 性 变化 ， 因 此 形成 了 一 条 从 低 分 到 高 分 的 不 降 曲 线 ， 这 就 是 
题目 正确 作答 率 对 测验 卷 面 总 分 的 回归 曲 线 。 由 于 测验 卷 面 总 
分 是 一 种 随 测验 特性 而 变 的 分 数量 表 ， 使 得 题目 对 总 分 的 回归 
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曲线 形态 趋向 复杂 ， 形 成 不 了 对 题目 性 质 的 独立 描写 。 人 们 所 
出 用 能 稳定 反映 被 试 水 平 的 潜在 特质 变量 兰 代 着 面 总 分 作为 回 
归 上 曲线 的 自 变量 ,这 样 的 回归 曲线 被 称 作 为 项 目 特征 曲线 
(Item Characteristic Curve， 简 称 为 ICC)， 记 作为 P (8)，( 为 
说 明 方 便 ， 我 们 以 只 有 一 个 潜在 特质 变量 的 单 维 潜在 特质 空间 
为 例 ， 以 后 的 叙述 除 特别 声明 的 外 均 是 如 此 )。 后 续 的 任务 是 
探 清 项 目 特征 曲线 的 形态 特点 。 我 们 固然 可 以 通过 抽样 测试 ， 
搜集 数据 ， 然 后 作 一 些 简单 的 计算 ， 在 平面 上 找 点 画 线 ， 得 到 
这 些 曲线 。 但 那 只 能 提供 一 些 感性 认识 ， 对 于 想 探 清 题 目 特 征 
参数 与 被 试 特质 参数 之 间 的 关系 却 无 济 于 事 。 尽 管 如 此 ， 通 过 
描 点 我 们 还 是 约略 认识 到 项 目 特征 曲线 是 一 条 中 心 对 称 的 S 形 
曲线 ， 这 就 为 寻找 数学 函数 表达 式 去 拟 合 这 些 曲线 提供 了 重要 
信息 。 
首先 成 功 地 被 用 来 拟 合 这 $ 形 曲 线 的 函数 是 正 态 卵 形 函 
数 ， 其 表达 式 如 于 : 
P (0) =cr (1-0)| 


al (17.1) 
i 27 

历史 上 正 态 卵 形 函 数 为 理论 上 说 明 项 目 特 征 曲 线 的 性 质 起 
了 很 大 的 作 几 。 但 在 测验 实践 中 ， 应 用 比较 方便 因而 也 比较 广 


泛 的 是 稿 后 给 出 的 Logistie 函数 ， 其 表达 式 如 下 ; 


1 -CC 
P (6) = C+T ro (17.2) 


类 似 式 17.1 和 17.2 这 样 用 来 拟 合 项 上 且 特 征 曲 线 的 函数 ， 
称 作 为 项 目 特 征 函 数 (lItem Characteristic Function， 简 称 为 
ICF)。 


《三 ) 顶 目 反应 理论 数学 模型 中 所 含 参数 的 意义 
我 们 可 以 注意 到 ， 无 论 是 正 态 卵 形 表 数 还 是 Logistic 销 
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数 ， 除 含有 被 试 潜在 特质 参数 6 之 外 ， 均 还 含有 三 个 未 知 参数 
a、b、c。 从 形式 上 看 ， 这 三 个 参数 是 决定 $ 形 曲 线 走向 的 形 
态 参 数 ， 实际 上 它们 还 都 是 反映 测验 试题 性 质 特征 的 题目 参 
数 。 为 深刻 理解 这 些 参数 的 意义 ,我 们 绘制 了 一 个 理想 试题 的 
项 目 特征 曲线 〈 附 图 17.1)， 供 读者 参考 。 图 中 直角 坐标 的 横 
轴 是 潜在 特质 变量 6， 纵 轴 是 8 的 函数 P (9)。P (6) 的 值 可 
以 看 作 是 潜在 特质 值 为 8 的 被 试 在 该 试题 上 正确 作答 的 概率 。 





附 图 17.1 项 目 特征 曲线 


参数 6 是 个 体 潜 在 特质 的 表征 值 。 在 认 知 测量 中 ，8 也 就 
被 简单 地 称 为 个 体 在 某 一 行为 发 展 方向 上 的 能 力 。6 在 特征 也 
数 中 是 一 个 自 变量 ， 从 理论 上 说 8 的 定义 域 是 无 穷 的 ， 从 - mw 
到 + wm 都 可 取 。P (9) 的 值 随 着 8 值 的 增 大 而 增 大 ， 但 以 了 
(9) = 1 为 它 的 上 渐 近 线 。 其 含义 就 是 随 着 个 体 潜在 特质 水 平 
的 提高 ， 被 试 在 该 题目 上 正确 作答 的 概率 将 越 来 越 大 。 参 数 8 
与 卷 面 总 分 有 一 定 的 联系 ,正常 情况 下 两 者 呈正 相关 。 但 是 潜 


第 十 七 章 心理 与 教育 测量 理论 的 新 发 展 "431 ， 





在 特质 是 被 试 水 平 更 为 本 质 、 更 为 精确 的 描写 。 习 惯 上 9 采 
用 标准 Z 分 数 的 表达 形式 。 

参数 C 称 为 伪 机 遇 水 平 参数 ， 相 当 于 经 典 理论 中 的 狂 测 
参数 。C 值 是 实际 测验 中 被 试 纯 赁 机 遇 作 答 而 成 功 的 概率 。 直 
线 P (9) =C 是 项 目 特征 曲线 的 下 渐 近 线 。 换 名 话说， 题目 
的 伪 机 遇 水 平 为 5， 意味 着 法 在 特质 水 平 为 - = 的 被 试 在 该 是 
上 正确 作答 的 概率 也 为 C。 高 质量 的 题目 应 有 较 小 的 C 值 ， 这 
与 经 典 理论 的 观点 是 一 致 的 。 

参数 b 被 和 为 题目 难度 。b 的 度量 系统 与 潜在 特质 参数 的 
度量 系统 是 一 致 的 。 难 度 为 b 的 题目 ， 若 排除 C 的 影响 ， 灌 
在 特质 9 值 从 等 于 的 被 试 在 该 题目 上 正确 作答 的 概率 为 0.5。 
若 不 排除 C 的 影响 ， 则 同样 条 件 下 被 试 在 该 题目 上 正确 作答 
的 概率 为 二 .1+C)。 模 坐标 9=b， 铁 坐标 P (9) = 方 (1+ 
C) 的 点 是 项 目 特征 曲线 的 拐点 ， 曲 线 递增 的 速率 在 此 点 由 快 
转 僵 。 此 曲线 拐点 也 是 曲线 的 中 心 对 称 点 ， 因 此 题目 难度 参数 
也 是 项 目 特征 曲线 的 定位 参数 。b 值 确定 ， 项 目 特 征 曲 线 在 模 
轴 上 的 位 置 也 就 确定 了 。 说 b 是 题目 难度 参数 是 因为 ， 随 着 是 
目 b 值 的 升 高 特征 曲线 在 模 轴 方向 上 向 右 平移 ， 这 时 只 有 潜在 
待 质 0 更 高 的 被 试 才 可 能 在 新 题目 上 获得 相同 的 正确 作答 概 
率 。 

参数 a 被 称 为 题目 的 区 分 度 ， 它 刻画 测验 题目 对 被 试 水 平 
区 分 能 力 的 高 低 。 在 题目 的 特征 曲线 中 a 值 是 曲线 拐点 处 切线 
斜率 的 函数 值 。 若 记过 拐点 的 切线 夹 角 为 A， 则 a = V25。 
tgA。 因 此 又 有 人 称 a 为 吓 峭 参数 。 曲 线 在 拐点 处 越 陡峭 ，a 
信 越 大 ， 曲 线 哇 霄 ， 意 味 着 潜在 特质 6 在 b 值 附近 稍 有 变化 ， 
则 在 该 题目 上 正确 作答 的 概率 差 什 就 很 大 。 说 明 该 试题 起 到 了 
把 ) 值 附近 被 试 精细 区 分 的 作用 。 相 反 ， 如 果 曲 线 在 拐点 处 比 


" 432 ， 心理 与 教育 测量 


较 平缓 ， 则 潜在 特质 值 6 的 较 大 增 减 都 不 能 引起 正确 作答 概率 
的 明显 改变 ， 说 明 试题 对 被 试 的 区 分 能 力 不 高 。 这 就 是 称 a 为 
题目 区 分 度 的 含义 。 

项 目 反 应 理论 的 三 个 题目 参数 虽 沿 用 了 经 典 测量 理论 的 一 
套 名 称 , 但 从 根本 上 说 ,其 定义 的 角 竣 与 方式 都 有 了 质 的 变 
化 ， 研 究 者 必须 给 以 充分 的 注意 。 项 目 反 应 理论 中 题目 参数 和 
潜在 特质 水 平 参数 共同 影响 测验 的 结果 和 测验 的 精度 。 项 目 特 
征 函 教 中 题目 参数 越 多 ， 对 题目 性 质 刻 画 越 精细 ， 但 相对 来 说 
模型 也 趋 于 复杂 ， 应 用 就 越 困难 。 式 17.1 和 17.2 被 称 作为 三 
参数 模型 ， 为 简便 起 见 ， 有 的 学 者 令 C 为 0， 转变 为 双 参 数 模 
型 ， 还 有 的 学 者 进一步 令 a 值 为 1， 则 转变 为 单 参数 模型 。 读 
者 可 以 自己 练习 获得 这 两 种 模型 的 表达 式 。 单 参数 模型 又 称 为 
Rasch 模型 ， 在 西欧 等 地 得 到 更 多 的 推崇 。 


(四) 模型 参数 的 估计 

应 用 项 目 反应 理论 指导 测验 编制 ， 参 数 估计 是 必 不 可 少 的 
工作 。 项 上 自 反 应 理论 中 的 参数 估计 有 两 种 情况 : 第 一 种 情况 是 
将 题目 参数 已 知 的 测验 施 测 后 ， 根 据 被 试 的 作答 反应 矩阵 ， 估 
计 所 有 被 试 的 潜在 特质 水 平 8。 这 种 参数 估计 广泛 应 用 于 测验 
使 用 者 ， 相 对 来 说 知 计 方法 比较 简单 。 第 二 种 情况 是 一 份 新 编 
测验 施 测 后 ， 根 据 被 试 的 作答 反应 矩阵 同时 估计 所 有 参 测 试题 
的 题目 参数 和 所 有 参 测 被 试 的 潜在 特质 水 平 参数 。 若 用 三 参数 
模型 ， 参 测 被 试 N 个 ， 参 测 题 目 n 个 ， 则 待 估 参 数 共 有 3n + 
N 个 。 这 种 估计 主要 用 于 测验 研究 者 和 测验 编制 者 ， 其 估计 方 
法 复杂 、 计 算 量 也 很 大 。 在 此 我 们 就 参数 估计 的 思想 方法 、 主 
要 公式 及 一 些 关 键 的 计算 方法 作 些 简单 介绍 。 对 参数 估计 不 感 
兴趣 的 读者 可 略 过 此 部 分 内 容 的 阅读 ， 并 不 会 影响 后 续 内 容 的 
理解 。 作 为 应 用 ， 您 可 以 直接 使 用 参数 估计 软件 ， 如 国外 的 
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LOGIST、BILOG、MicroCAT 等 ;车 理论 研究 需要 ， 您 也 可 
以 查阅 有 关 文 献 获取 有 关 和 参数 估计 的 详细 介绍 。 

用 于 第 二 种 情况 的 参数 估计 方法 有 多 种 ， 我 们 介绍 其 中 的 
联合 极 大 似 然 估 计 法 。 教 学 模型 采用 Logistic 函数 。Logistic 
模型 适用 于 双 歧 式 评 分 题 ， 被 试 在 任何 题目 上 的 作答 反应 记录 
只 有 成 功 〈 记 作 1) 和 失败 〈 记 作 0) 两 种 结果 。 对 于 一 场 有 
N 个 被 试 ，n 道 试 题 的 测试 ， 其 最 终结 果 为 一 全 部 由 1 和 0 组 
成 的 nm 行 N 列 的 作答 反应 矩阵 U; 


Uy U2 “UN 
U= (uj)oxN = 1 U2 ““U2N (17.3) 


Unl Un2 ”UnN 
记 了 Pi 为 6= 人 的 a=a, b=b, c=6 (i=1, 2，3，…ni j=1， 
2，3，…N) 时 的 函数 值 P (9) ， 即 : 
1 一 Ci 
Pi = Ci+ 本 TO (17.4) 
又 记 Qi=1- Pio 
为 进行 参数 估计 先 求 这 场 测 验 的 对 数 似 然 函 数 ; 
InL (UI8, a, b, ¢) = In IIP;"* Qi "3 有 
= 了 [UslnPs+ (1- Uiingi] 


(17.5) 
将 对 数 似 然 函 数 分 别 对 N 个 8 和 3n 个 8a，b, c 参数 求 偏 导 并 
令 其 为 0， 稍 加 整理 可 得 如 下 方程 组 : 
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这 是 一 个 共有 3n + N 个 方程 组 成 的 含有 3n + N 个 未 知 参 
数 的 庞大 方程 组 。 求 解 的 策略 是 把 对 8 求 偏 导 得 到 的 N 个 方 
程 与 对 题目 参数 求 偏 导 得 到 的 3n 个 方程 分 成 两 部 分 反复 迭代 
求解 。 此 时 第 一 部 分 的 N 个 方程 均 成 为 一 个 个 可 独立 求解 的 
一 元 方程 ， 第 二 部 分 也 成 了 一 组 组 以 题目 为 单元 的 相互 独立 的 
三 元 方程 组 ， 这 就 为 进一步 的 求解 提供 了 莫大 的 方便 。 由 于 所 
有 方程 和 皆 是 非 线 性 方程 ， 必 须 采用 牛顿 一 一 拉 普 了 带 迭代 法 。 整 
个 求解 过 程 从 设 定 一 套 参 数 初 值 开始 ， 经 过 反复 迭代 获得 一 组 
解 序列 。 可 以 证 明 序列 最 终 收 和 敛 于 方程 组 的 真 解 。 细 心 的 读者 
可 以 发 现 ， 第 一 种 参数 估计 情况 是 第 二 种 参数 估计 情况 的 一 种 
特例 ， 或 者 说 是 其 中 的 一 个 部 分 ， 因 此 要 简单 得 多 。 


三 、 项 目 反 应 理论 的 优良 性 质 


由 第 二 部 分 的 介绍 可 以 独到 项 目 反 应 理论 从 理论 导 和 人 到 整 
个 理论 框架 ， 都 与 经 典 理论 有 较 大 的 不 同 ， 基 本 上 突破 了 经 典 
理论 的 公理 体系 。 这 就 避免 了 经 典 理论 由 于 先天 下 不 足 而 产生 
许多 限制 的 妮 点 。 项 目 反应 理论 有 许多 优良 特性 ， 主 要 的 有 以 
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下 几 个 方面 。 


(一 ) 题目 参数 的 跨 群 体 不 变性 

我 们 在 第 一 部 分 曾经 指出 过 经 典 理 论 中 各 种 参数 严重 依赖 
于 被 试 群体 的 不 足 。 在 项 目 反 应 理论 中 测验 的 题目 参数 具有 跨 
群体 不 变性 ， 读 者 已 知 项 目 特征 曲线 是 被 试 正确 作 管 概率 对 其 
潜在 特质 水 平 的 回归 曲线 。 统 计 学 上 可 以 证 明 回 归 线 是 因 变量 
与 自 变 量 之 间 本 质 关 系 的 描写 ， 在 许多 情况 下 不 受 样本 分 布 的 
影响 。 我 们 来 看 项 目 特征 函数 ，P (9) 是 具有 潜在 特质 0 的 被 
试 对 测验 题目 正确 作答 的 概率 ， 这 个 概率 值 的 大 小 仅仅 依赖 于 
被 试 的 潜在 特质 6， 与 具有 这 种 特质 值 的 人 数 多 赛 没有 任何 关 
系 ， 更 不 依赖 具有 其 它 特 项 水 平 值 的 人 数 多 赛 。 所 以 一 道 试 题 
无 论 是 施 测 于 哪 种 分 布 群 体 ，P (9) 由 8 值 叭 一 确定 ; 整个 P 
(9) 也 随 9 的 变化 而 变化 。 由 此 ，P (8) 曲线 的 拐点 、 拐 点 切 
线 的 斜率 与 渐 近 线 的 高 度 也 都 唯一 确定 ， 进 而 可 以 说 题目 参数 
a、b、e 也 是 唯一 确定 的 了 。 项 目 反应 理论 的 这 一 优良 人 性质 为 
建设 大 型 题库 ， 编 制 各 种 测验 提供 了 方便 。 


(二 ) 潜在 特质 量 表 的 可 选择 性 

从 题目 参数 跨 群 体 不 变性 的 分 析 中 可 以 看 到 ， 题 目 参数 的 
这 一 性 质 只 有 在 潜在 特质 量 表 确 定时 才能 表现 出 来 。 一 旦 潜在 
特质 8 的 度量 系统 改变 ， 出 题目 参数 也 会 随 着 变化 ， 因 此 ， 施 
测 于 不 同 被 试 群体 的 试题 ， 要 使 其 题目 参数 不 变 ， 就 要 使 两 群 
体 潜在 特质 8 的 量 表 保持 一 致 。 由 于 项 目 反 应 理论 中 潜在 特质 
6 的 量 表 可 以 任意 选择 ， 使 得 上 述 要 求 能 够 得 到 满足 。 所 谓 量 
表 的 可 选择 性 实际 上 指 量 表 的 参照 点 和 度量 单位 可 以 任意 选择 
而 其 回归 函数 值 保持 不 变 。 这 一 性 质 不 难 验证 : 我 们 考察 项 目 
特征 函数 ， 对 于 8 的 参照 点 的 改变 〔 即 加 上 或 减 去 一 个 常数 ) . 
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只 要 参数 b 的 参照 点 作 相应 改变 ，P (6) 值 就 保持 不 变 ; 对 于 
8 测量 单位 的 改变 〈 即 乘 上 一 个 常数 )， 只 要 参数 b 的 测量 单 
位 作 相应 改变 而 参数 a 的 测量 单位 作 一 逆 变 〈 除 以 这 个 常数 ) ， 
P (9) 的 值 也 保持 不 变 。 利 用 这 一 性 质 ， 我 们 可 以 使 来 自 不 同 
试卷 、 不 同 被 试 施 测 的 所 有 潜在 特质 参数 与 题目 参数 定义 在 同 
一 度量 系统 上 。 项 目 反 应 理论 的 这 一 优良 性 质 为 进行 测验 等 值 
提供 了 理论 基础 。 


(三 ) 参数 设计 的 科学 性 

项 目 反 应 理论 参数 设计 的 科学 性 在 介绍 参数 意义 时 读者 已 
有 体会 。 在 此 我 们 归纳 要 点 如 下 : 外 题目 难度 参数 b 与 被 试 法 
在 特质 参数 6 定义 在 同一 度量 系统 上 。 这 一 性 质 为 选择 与 被 试 
水 平 匹配 的 试题 施 测 创造 了 条 件 。@ 区 分 度 参 数 与 难度 参数 相 
互 独立 。 由 特征 曲线 可 以 看 到 ， 区 分 度 参 数 由 曲线 拐点 处 切线 
的 斜率 决定 ， 与 拐点 的 位 置 没有 关系 ， 即 与 难度 没有 关系 。 这 
一 性 质 为 在 任何 难度 水 平 上 选择 高 区 分 度 试 题 提供 了 保证 。@ 
伪 机 过 参数 的 实证 性 。 在 经 典 理论 中 猜测 参数 据 先 验 概率 计 
算 ， 并 不 考虑 实际 是 否 有 萍 测 。 项 目 反应 理论 试题 的 伪 机 遇 水 
平 参数 由 实测 数据 计算 而 得 ， 实 际 反映 各 题 的 猜测 情况 。 这 使 
得 试题 短 选 重 实际 性 能 而 不 拘 于 表面 形式 。 


《四 》 信 感 函数 概念 的 引进 与 信息 函数 的 可 加 性 
项 目 反应 引进 了 一 个 全 新 的 概念 : 测验 题目 信息 函数 。 项 
目 反 应 理论 定义 测验 试题 的 信息 函数 为 
1 (8) = Pi (0)2/P: (9) -Qi (0) (17.7) 
其 中 P; (8) 是 为 P; (8) 对 8 的 一 阶 导 函 数 。 项 目 反 应 理论 证 
明 ， 对 于 一 个 潜在 特质 水 平 值 为 6 的 被 试 ， 试题 i 施 测 于 他 
时 ， 所 得 4 值 的 测量 标准 误差 为 : 
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SE;= [1 (6)] -二 (17.8) 
此 式 说 明 ， 一 个 试题 提供 的 信息 函数 越 大 ， 测试 的 误差 越 小 。 
可 以 证 明 试 题 的 信息 函数 与 试题 的 区 分 度 成 正比 ， 与 伪 机 遇 水 
平成 反比 ， 与 8 减 b 的 差 的 绝对 值 成 反比 。 项 目 反 应 理论 进 一 
步 证 明 测 验 题目 信息 函数 具有 可 加 性 ， 累 加 值 称 为 测验 信息 函 
数 ， 记 为 1 (6): 


I (的 = 2 (0) (17.9) 
同样 ， 整 个 测验 的 测量 标准 误差 为 ; 


SE (8) = [1 (9)]-3 (17.10) 
由 信息 函数 的 定义 不 难看 出 ， 项 目 反应 理论 的 测量 误差 概念 与 
经 典 理 论 的 不 一 样 ， 项 目 反应 理论 的 测量 误差 不 仅 与 参 测 题 目 
性 质 有 关 ， 还 与 参 测 被 试 的 水 平 有 关 ， 即 对 不 同 的 被 试 施 测 相 
同 试题 其 测验 误差 并 不 相同 。 测 验 信息 函数 概念 的 引进 从 根本 
上 改变 了 测验 误差 分 析 的 思想 方法 和 技术 ， 也 为 测验 编制 提供 
了 一 种 新 型 的 、 切 实 可 行 的 选 题 策略 。 


四 、 项 目 反 应 理论 的 应 用 


一》 项 目 反应 理论 对 题库 建设 的 特殊 贡献 

题库 质量 高 低 的 一 个 重要 标志 是 库 中 题目 技术 参数 的 完备 
性 与 准确 人 性。 技术 参数 越 完备 题库 的 可 控 程 度 就 越 高 ， 选 择 题 
目的 针对 性 就 越 强 。 经 典 测 验 理论 题库 的 计量 技术 参数 主要 是 
难度 、 区 分 度 和 猜测 度 。 项 目 反应 理论 题库 的 计量 技术 参数 除 
这 三 个 外 ， 还 可 增加 题目 信息 函数 。 把 题目 信息 函数 作为 技术 
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参数 存 人 题库 是 项 目 反应 理论 题库 独 有 的 ， 这 所 高 了 题库 参数 
的 完备 性 ， 提 高 了 题库 管理 的 可 控 性 ， 为 拓宽 题库 功能 提供 了 
有 利 条 件 。 

参数 的 准确 人 性 也 是 题库 质量 的 重要 条 件 。 在 经 典 理论 的 题 
库 建 设 中 ， 建 库 者 力求 各 题目 参数 的 准确 性 。 但 是 ， 经 典 理 论 
题目 参数 的 估计 严重 依赖 于 样本 。 在 大 型 题库 建设 中 要 想 自 始 
至 终 都 使 用 一 个 稳定 、 足 够 大 的 群体 作 试 测 样本 实际 上 是 很 难 
做 到 的 ， 这 给 维持 参数 的 准确 性 带 来 了 困难 。 在 项 目 反 应 理论 
中 ， 由 于 题目 参数 估计 有 路 群体 不 变性 和 潜在 特质 参数 具有 可 
选择 性 ， 即 使 来 自 不 同 群 体 施 测 的 题目 参数 也 可 以 用 参数 等 值 
技术 将 它们 统一 于 同一 个 量 纲 系统 中 。 这 样 就 保证 了 题库 参数 
的 准确 性 。 


(二 ) 常 模 参 照 性 测验 的 编制 

测验 编制 的 一 个 重要 目标 就 是 要 使 测验 的 误差 达到 最 小 。 
如 果 事 先 规 定好 测验 的 最 大 允许 误差 ， 能 否 根据 试题 的 已 知 参 
数 直接 组 拼 出 符合 要 求 的 试卷 呢 ? 这 在 经 典 理论 中 是 难以 实现 
的 。 在 项 目 反应 理论 中 可 以 预先 规定 潜在 特质 量 表 上 所 有 值 的 
最 大 允许 测量 误差 ， 然 后 利用 17.10 式 求 出 所 有 水 平 值 上 的 最 
小 允许 信息 量 ， 形 成 一 个 信息 函数 ， 项 目 反应 理论 称 其 为 目标 
信息 函数 。 组 卷 的 过 程 就 成 了 选择 测验 试题 ， 用 它 的 试题 信息 
函数 充填 目标 信息 函数 的 过 程 。 每 人 选 一 题 就 增加 一 题 的 信息 
函数 ， 直 至 累加 之 和 在 每 一 水 平 点 上 都 不 小 于 目标 信息 函数 为 
止 。 用 这 样 的 试卷 去 施 测 ， 则 可 以 保证 各 水 平 测 值 的 误差 均 不 
会 超过 规定 的 允许 误差 。 当 然 在 选择 试题 时 ， 只 要 不 违背 其 它 
选 题 原则 ， 命 题 者 应 尽量 选 那 些 信息 量 大 的 试题 参加 组 卷 。 这 
样 ， 用 较 少 的 试题 就 能 达到 不 超过 允许 误差 的 要 求 ， 提 高 了 测 
验 的 效率 。 
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(三 ) 目标 参照 性 测验 编制 

目标 参照 性 测验 的 编制 有 两 条 原则 : 一 是 要 准确 地 划 定 合 
略 分 数 线 ， 二 是 要 尽量 降低 对 被 试 合格 与 否 的 误 判 率 。 项 目 反 
应 理论 在 备 有 题库 的 条 件 下 组 拼 目 标 参 照 性 测验 可 以 比较 理想 
地 实现 这 两 条 原则 。 如 果 测 验 的 对 象 已 经 确定 ， 划 合格 分 数 线 
的 步骤 如 下 : 

(1) 请 专家 就 整个 题库 针对 被 试 合格 要 求 定 一 合格 率 。 比 
如 认为 要 正确 作答 题库 试题 的 80% 以 上 才 是 合格 ， 则 这 个 合 
格 率 就 定 为 0.80。 这 个 值 实际 上 是 用 整个 题库 测试 时 的 真 分 
数 的 合格 分 数 ， 记 为 x。。 

(2》 用 下 式 求 出 专家 心目 中 的 潜在 特质 合格 分 数 


N 
z= 有 2P (0) (17.11) 
i=l 


在 上 式 中 x. 已 知 ， 所 有 题目 参数 已 知 ， 可 用 牛顿 迭代 法 求 
解 8.。 

(3) 对 于 用 该 题库 中 试题 编制 的 任何 试卷 ， 只 要 根据 施 测 
数据 估 出 被 试 的 潜在 特质 6， 就 可 将 其 与 8. 比较 ， 判 断 该 被 斌 
合格 与 否 。 也 可 以 就 组 成 试卷 的 i 道 试题 ， 以 8. 为 已 知 ， 再 
用 17.11 式 估 出 该 份 试卷 的 真 分 数 合格 分 数 ， 直 接 用 被 试 厌 始 
分 数 与 它 作 比 较 ， 判 断 被 试 合格 与 否 。 缩 制 者 还 可 以 通过 调整 
试卷 的 试题 难度 来 将 真 分数 合 格 分 数 调整 到 自己 认定 的 点 ， 比 
如 说 我 国 习惯 使 用 0.60 ( 即 百分制 的 60 分 }， 那 就 更 符合 传 
统 习惯 了 。 

合格 分 数 线 划 准 了 ， 如 何 使 对 被 试 的 合格 与 否 的 误 判 率 最 
小 呢 ? 对 此 项 目 反应 理论 有 几 种 选 题 策略 。 比 较 简单 的 就 是 选 
择 那 些 在 合格 分 数 6 上 有 最 大 测验 信息 量 的 试题 组 成 试卷 。 
同样 可 以 事先 规定 好 在 6 点 上 的 最 大 人 允许 误差 ， 然后 累加 和 人 
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选 试题 在 4 点 上 的 信息 量 , 一 旦 达到 累加 信息 量 转换 成 的 测 
验 标 准 误差 小 于 规定 值 ， 即 可 停止 选 题 。 在 4 点 有 较 小 的 测 
验 误差 ， 就 使 得 处 于 8. 点 附近 的 被 试 误 判 的 概率 降 得 比较 小 。 


《四 ) 计算 机 化 自 适 应 测验 编制 

计算 机 化 自 适应 测验 (Computerized Adaptive Testing) 是 
当今 测验 技术 的 最 高 水 平 ， 也 是 项 目 反 应 理论 最 有 特色 的 应 
用 。 计 算 机 化 自 适 应 测验 的 实现 有 三 个 条 件 ; 

{1) 在 测试 过 程 中 能 快速 估计 被 试 水 平 参 数 和 参数 估计 
精度 。 

(2》 能 针对 精度 目标 ， 选 出 与 被 试 水 平 相 匹配 的 试题 进行 
测试 。 

(3) 对 于 使 用 了 不 同 试题 施 测 的 被 试 能 估计 出 具有 同一 参 
照 系 的 水 平 值 。 

在 经 典 理论 中 要 满足 这 些 条 件 是 相当 困难 的 。 在 项 目 反 应 
理论 指导 下 ， 结 合计 算 机 的 应 用 ， 这 些 条 件 都 可 以 满足 。 在 测 
试 中 ， 计 算 机 可 以 不 断 佑 计 被 试 的 潜在 特质 值 6 (参见 参数 佑 
计 部 分 )， 可 以 通过 累加 参 测 试题 的 信息 函数 而 计算 测验 的 精 
度 。 初 估 被 试 8 值 后 ， 可 以 在 题库 中 挑选 那些 难度 与 6 接近 ， 
在 6 附近 有 最 大 测验 信息 量 的 试题 进行 新 一 轮 测试 。 重 复 以 上 
步 又， 直至 测验 精度 满足 预定 要 求 ， 同 时 即 可 报告 被 试 的 真实 
水 平 值 。 由 于 测试 题目 来 自 同 一 题库 ， 虽 然 测试 题 数 不 一 样 ， 
测试 具体 题目 也 不 一 样 ， 但 所 估 潜 在 特质 值 还 是 可 比 的 。 由 于 
测试 时 是 按 被 试 水 平 选择 试题 ， 并 且 所 选 试题 又 是 具有 最 大 信 
息 量 的 ， 使 得 所 组 成 的 测验 大 大 提高 了 测验 的 效率 。 可 见 计算 
机 化 自 适应 测验 是 测验 发 展 的 新 方向 。 
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五 、 项 目 反应 理论 展望 


历史 上 项 目 反 应 理论 的 发 展 酝酿 了 一 个 较 长 的 时 期 ， 到 
60 年 代 末 70 年 代 初 才 开始 莲 勃 发 展 。 从 整个 理论 的 假设 基础 
与 理论 框架 看 ,项 目 反 应 理论 确 有 经 典 理论 难以 比拟 的 优点 。 
项 目 反 应 理论 为 各 种 测验 的 发 展 都 留 下 了 相应 的 研究 空间 ; 从 
单 维特 质 测量 到 多 维特 质 测 量 ， 从 双 玻 评分 试题 测试 到 多 级 评 
分 试题 测试 ， 从 认 知 特质 测试 到 非 认 知 特质 测试 ， 从 纸 笔 形 式 
测试 到 计算 机 测试 ， 从 个 别 测试 到 团体 测试 均 可 在 项 目 反应 理 
论 的 框架 中 找到 相应 位 置 。 但 是 就 项 目 反应 理论 的 发 展 与 应 用 
现状 看 ， 尽 管 其 基本 框架 无 所 不 包 ， 但 在 许多 方面 还 只 是 一 种 
构想 。 比 如 多 维特 质 空间 的 测量 还 只 有 些 初级 的 理论 模型 ， 多 
级 评分 试题 的 测量 应 用 还 有 待 开发 ， 非 认 知 特质 测量 的 应 用 也 
还 届 指 可 数 。 目 前 发 展 比较 成 熟 ， 应 用 比较 成 功 的 还 只 是 单 维 
的 双 野 评分 试题 模型 。 因 此 还 远 不 能 满足 各 方面 测验 发 展 的 需 
要 。 实 晓 需 要 有 更 多 的 测量 工作 者 投 人 到 项 目 反 应 理论 的 研 
究 ， 实 践 也 需要 项 目 反应 理论 有 更 快 的 发 展 。 
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项 目 反 应 理论 研究 者 从 分 析 被 试 在 测验 试题 上 的 反应 出 
发 建立 了 项 目 特征 函数 ， 在 单个 题目 特性 分 析 得 非常 透彻 得 
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情况 下 ， 再 研究 题目 组 合 的 性 质 ， 也 就 是 测验 的 性 质 ， 形 成 了 
项 目 反应 理论 的 独特 体系 。 几 乎 在 同时 ， 另 一 些 测 验 研究 者 从 
深入 分 析 测 验 误差 的 来 源 、 结 构 出 发 ， 应 用 方差 分 量 分 析 辅 助 
测验 研究 ， 创建 了 从 宏观 上 研究 测验 性 质 的 新 理论 一 一 概 化 理 
论 (Generalizability Theory， 简 称 CT)， 也 有 人 译 其 为 拓 广 理 
论 。 概 化 理论 在 经 典 理论 基础 上 建 起 了 一 套 全 新 的 概念 体系 ， 
为 测验 理论 的 发 展开 辟 了 一 个 新 方向 。 本 节 拟 向 读者 简要 介绍 
一 下 概 化 理论 的 基本 体系 和 应 用 方法 ， 以 助 于 进一步 的 学 习 与 
研究 。 


(一 ) 分 数 方差 测量 学 意义 的 再 认识 

在 经 典 测 量 理论 中 我 们 已 经 认识 到 原始 分 数 方差 是 测验 分 
数 变 异 的 总 量 。 经 典 理论 将 原始 分 数 方 差分 解 为 真 分 数 方差 和 
误差 分 数 方差 两 部 分 ， 以 真 分 数 方差 占 总 分 方差 之 比 作 为 测验 
的 信和 度 ， 以 信 度 高 低 来 评价 测验 的 质量 。 在 经 典 理论 中 测验 误 
差 是 一 个 笼统 的 概念 ， 误 差 方 差 也 是 一 个 总 量 ， 至 于 测验 误差 
由 哪些 因素 造成 ,各 种 原因 所 形成 的 误差 方差 在 误差 总 方差 中 
各 占 多 大 比例 均 没 有 作出 明确 的 揭示 。 

事实 上 测验 误差 的 来 源 是 多 种 多 样 的 ， 各 种 误差 在 误差 总 
量 中 所 占 的 比 也 是 不 相同 的 。 以 作文 测试 为 例 ， 如 果 我 们 请 一 
位 阅卷 者 一 次 评阅 一 个 被 试 的 一 篇 作文 ， 所 评分 数 即 使 有 误差 
我 们 也 无 法 计量 。 若 请 一 位 阅卷 员 先 后 两 次 评阅 一 个 被 试 的 同 
一 篇 作文 ， 评 分 车 相同 ， 则 我 们 认为 该 阅卷 员 先 后 评分 稳定 无 
误差 。 若 两 次 评分 不 相同 ， 我 们 就 说 该 阅卷 员 先 后 评分 不 稳 
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定 ， 评 分 有 误差 。 两 个 分 数 间 的 方差 是 这 种 时 距 性 误差 的 刻画 
量 。 若 分 别 请 几 位 阅卷 员 各 自 独 立 评阅 同一 个 被 试 的 同 -- 简 作 
文 ， 若 评分 不 一 致 ， 我 们 就 说 这 些 阅卷 员 的 评分 不 准确 ， 这 些 
分 数 的 方差 是 阅卷 员 间 评分 误差 的 刻画 量 。 若 我 们 请 一 位 阅卷 
员 一 次 评阅 一 个 被 试 的 多 篇 作文 ， 若 评分 不 同 ， 我 们 说 对 于 测 
量 被 试 的 一 般 作文 水 平 而 言 ， 这 是 作文 命题 间 的 不 一 致 ， 这 些 
分 数 的 方差 是 作文 命题 误差 的 刻画 量 。 如 果 我 们 请 几 个 阅卷 
员 ， 先 后 两 次 评阅 一 个 被 试 的 几 篇 作文 ， 那 么 阅卷 员 间 的 误 
差 、 时 距 误 差 、 命 题 误差 就 汇集 到 一 起 来 了 ， 总 的 还 称 其 为 误 
差 ， 此 时 的 分 数 方差 已 是 多 种 误差 方差 的 总 量 ， 其 内 部 结构 是 
复杂 的 ， 简 单 笼统 地 以 一 个 误差 量 描写 它 ， 就 显得 比较 粗糙 
概 化 理论 就 是 基于 这 种 认识 开始 它 的 新 研究 的 。 


(二 》 概 化 理论 的 测验 情境 关系 说 

概 化 理论 认为 ， 测 量 误差 是 采用 一 种 测量 方法 测量 必然 产 
生 的 ， 是 任何 测量 者 都 无 法 避免 的 。 关 键 的 问题 是 测量 工作 者 
测量 时 必须 明确 他 的 测量 目标 到 底 是 什么 ， 造 成 测量 误差 的 因 
素 有 哪些 ， 各 种 因素 对 测量 目标 的 影响 分 别 有 多 大 。 为 此 ， 概 
化 理论 提出 了 测验 情境 关系 说 ， 在 不 同 的 测验 情境 关系 下 ， 测 
量 误差 的 结构 不 同 ， 误 差 量 也 不 同 。 由 此 测验 编制 者 可 以 通过 
改变 测验 情境 关系 达到 改善 测量 ， 降 低 测量 误差 的 目的 。 概 化 
理论 认为 ， 研 究 测量 必须 先 研究 测验 情境 关系 。 概 化 理论 所 
出 , 测验 情境 关系 是 由 一 个 测量 目标 和 若干 个 测量 侧面 构 
成 的 。 

测量 目标 是 测量 者 希望 通过 测量 用 测量 数据 描绘 的 那些 实 
体 。 在 心理 与 教育 测量 中 ， 绝 大 多 数 的 测量 目标 是 个 体 心 理 品 
质 ， 可 以 通过 间 “ 测 谁 ”和 “ 测 什 么 "， 得 到 回答 。 比 如 说 在 
作文 测试 中 ， 无 论 是 多 个 阅卷 者 评阅 ， 多 次 评阅 ， 还 是 多 篇 命 
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题 的 评说， 其 测量 目标 都 是 被 试 的 写作 能 力 。 因 此 被 试 间 分 数 
方差 就 是 测量 目标 分 数 方差 ， 也 就 是 经 典 理论 中 所 说 的 真 分 数 
方差 。 测 量 目标 分 数 方差 只 是 原始 分 数 方差 中 的 一 部 分 ， 但 它 
是 测量 者 所 追求 的 个 体 差异 ， 理 论 上 认为 是 越 大 越 好 。 

除了 测量 目标 方差 ， 其 余 的 都 是 误差 方差 ， 这 些 误差 的 来 
源 都 称 作为 测量 侧面 。 实 际 上 一 个 测量 侧面 就 是 基 一 个 方面 的 
测量 条 件 。 比 如 在 作文 测量 中 ， 阅 卷 者 是 一 个 测量 侧面 ， 同 一 
篇 作文 多 次 评阅 是 一 个 测量 侧面 ,命题 又 是 一 个 测量 侧面 。 其 
它 诸 如 测量 时 间 、 采 光 等 级 、 干 扰 噪 音 、 指 导语 类 型 ， 其 至 于 
被 试 的 心境 、 文 化 背景 等 均 可 以 作为 测量 侧面 进入 测验 情境 
关系 中 。 

概 化 理论 指出 ， 一 个 测量 侧面 可 以 有 不 同 的 水 平 。 比 如 在 
作文 测试 中 ,车 有 三 个 阅卷 员 ， 前 后 两 次 评阅 ， 有 四 个 作文 
题 ， 则 阅卷 者 侧面 有 三 个 水 平 ， 评 阅 次 数 侧 面 有 两 个 水 平 ， 命 
题 铀 面 有 四 个 水 平 。 测 量 侧面 还 有 随机 侧面 与 固定 侧面 之 分 。 
随机 侧面 意 指 在 测量 分 析 中 ， 该 侧面 内 的 水 平 是 该 侧面 所 有 水 
平 的 一 个 随机 样本 ， 在 以 后 的 测量 中 ， 使 用 的 水 平 随机 取 自 该 
市 面 所 有 水 平 。 固 定 侧 面 是 指 在 分 析 中 所 取水 平 不 是 随机 样 
本 ,在 未 来 的 测量 中 也 将 严格 使 用 分 析 中 所 使 用 过 的 侧面 水 
平 。 国 定 侧面 的 通常 用 语 就 是 我 们 常 说 的 “标准 化 "。 应 该 指 
出 的 是 ， 一 个 测 重 侧面 一 旦 被 固定 ， 它 就 或 为 测量 目标 的 一 部 
分 了 。 每 固定 一 个 测量 侧面 ， 测 量 的 误差 就 会 减 小 一 些 ， 测 量 
的 信和 度 和 效 度 就 会 提高 一 些 。 但 是 这 种 信和 度 、 效 度 的 提高 是 有 
代价 的 ， 其 代价 是 对 于 测量 结果 分 数 可 解释 的 范围 将 变 小 。 比 
如 ,在 作文 测试 中 测量 的 目标 本 来 是 被 试 作文 水 平 ， 若 我 们 固 
定 阅卷 老 侧面 ， 即 每 次 阅卷 者 不 变 ， 则 测量 的 目标 变 为 这 几 个 
阅卷 者 评阅 的 被 试 作文 水 平 ， 解 释 的 范围 由 一 般 阅卷 者 评阅 缩 
小 到 “这 凡 个 ”的 范围 。 若 我 们 固定 作文 题目 侧面 ， 那 测量 月 
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标 就 是 被 试用 这 几 个 作文 题目 作文 的 水 平 。 

在 测量 中 测量 侧面 被 固定 得 越 多 ， 测 量 的 信 度 、 效 度 也 就 
越 高 ,但 测量 目标 所 受 的 限制 也 就 越 来 越 大 。 一 旦 所 有 侧面 均 
被 固定 ， 测 量 误 差 没 有 了 ， 测 量 也 就 没有 了 实际 意义 。 经 典 测 
量 理论 中 所 谓 的 标准 化 测验 就 是 标准 化 除 测验 题 之 外 的 各 种 测 
量 条 件 ， 实 际 上 就 是 固定 各 个 测量 侧面 ， 以 获得 较 高 的 测 重信 
度 。 相 对 来 说 标准 化 测验 的 结果 分 数 解释 范围 也 就 大 受 限 制 ， 
即 只 能 说 是 标准 化 环境 下 的 考生 水 平 ， 只 能 起 标准 化 条 件 下 比 
较 考生 水 平 高 低 的 作用 。 至 于 在 非 标 准 化 条 件 下 比较 结果 将 会 
如 何 就 难以 料 定 了 。 由 此 也 可 见 ， 为 应 用 概 化 理论 进行 测验 分 
析 ， 测 验 情 境 关 系 中 至 少 有 一 个 测量 侧面 应 该 是 随机 的 。 因 为 
如 朵 所 有 的 储 面 均 被 问 定 ， 测 量 结 果 就 极度 可 千 ， 不 必 分 析 测 
量 误 差 了 ,但 是 这 时 的 测量 目标 就 完全 被 限 死 ， 结 果 分 数 的 解 
释 完 全 国定 ,没有 了 比较 的 价 什 。 

由 测验 情境 关系 分 析 而 得 出 的 概 化 理论 的 另 一 个 重要 思想 
就 是 测验 的 真 分 数 不 止 一 个 。 在 经 典 测量 理论 中 ， 操 作 人 性 地 定 
义 个 体 真 分 数 是 个 体重 复 测量 所 得 分 数 的 平均 数 ， 但 经 典 理论 
却 未 说 明 这 种 重复 测量 的 条 件 。 因 此 个 体 的 真 分 数 只 有 一 个 ， 
真 分 数 成 了 描写 个 体 品质 的 一 个 常量 。 但 是 在 概 化 理论 中 ， 从 
测验 情境 关系 的 讨论 可 以 看 到 ， 测 量 目 标 、 测 量 侧面 都 是 会 变 
化 的 ， 因 此 对 于 相同 的 个 体 存在 着 许多 种 不 同 的 测量 方法 ， 不 
同 的 测量 方法 实际 上 含有 不 同 的 测量 目标 和 不 同 来 源 的 误差。 
因而 ， 对 于 一 给 定 个 体 ， 所 处 的 测验 情境 关系 不 同 ， 就 会 存在 
不 同 的 真 分 数 。 . 

从 概 化 理论 的 有 多 重 真 分 数 的 思想 以 及 有 多 种 测量 误差 来 
源 的 思想 ， 必然 可 以 推演 到 的 一 个 新 的 结论 是 ， 在 不 同 的 测验 
情境 关系 下 ,测量 的 信和 度 也 不 相同 。 也 就 是 说 即使 所 测 个 体 不 
变 也 存在 多 重信 和 度 。 
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现在 我 们 归纳 一 下 概 化 理论 提出 的 测验 情境 关系 理论 的 基 
本 思想 : 任何 测量 都 是 依赖 于 特定 的 测验 情境 关系 的 ， 测 验 情 
境 关 系 中 的 测量 目标 、 测 量 侧面 、 测 量 侧面 的 水 平 都 是 会 变化 
的 ， 它 们 的 变化 会 引起 测验 误差 的 来 源 、 测 验 误差 的 大 小 、 真 
分 数 的 种 类 以 及 测验 信 度 的 变化 ， 同 时 测验 分 数 的 解释 范围 也 
发 生变 化 。 


(三 》 测 验 设计 的 模型 与 种 类 

为 全 面 分 析 测 验 的 性 质 ， 概 化 理论 提出 测验 实施 之 前 必须 
进行 测验 设计 。 测 验 设计 首先 包括 测量 目标 的 界定 ， 测 量 侧 面 
的 选择 以 及 各 侧面 水 平 的 确定 。 随 之 而 来 的 是 测验 数据 采集 方 
法 的 设计 。 数 据 采 集 方法 有 全 交叉 采集 、 相 互 贬 套 采集 和 交叉 
与 氢 套 混合 采集 三 大 类 型 。 所 谓 交 叉 采 集 指 所 有 测量 目标 在 所 
有 测量 侧面 的 所 有 水 平 上 均 被 测量 的 数据 采集 方法 。 骸 套 采 集 
指 某 个 侧面 的 各 个 水 平分 别 被 包含 在 另 一 个 侧面 的 各 个 水 平 之 
中 施 测 的 数据 采集 方法 。 混 合 采 和 集 指 兼 有 两 种 方法 的 数据 采集 
法 ， 用 于 三 个 测量 侧面 以 上 的 情况 。 三 种 数据 采集 法 设计 分 称 
为 交叉 设计 、 髓 套 设计 和 混合 设计 。 交 叉 设 计 的 数据 信息 是 最 
丰富 的 ， 纯 其 套 设计 的 教 据 信息 是 最 简单 的 。 应 用 典 套 设计 有 
时 是 限于 测验 的 客观 条 件 ， 有 时 是 为 了 节约 投入 。 采 用 全 交叉 
设计 对 有 的 研究 来 说 ， 信 息 的 浪费 是 明显 的 。 实 践 中 常用 的 测 
验 设计 有 单 侧面 交叉 设计 、 双 侧面 交叉 设计 、 双 侧面 谋 套 设 
计 ， 当 然 还 有 三 侧面 交叉 设计 、 三 侧面 嵌 套 设计 、 三 侧面 混合 
设计 等 。 从 理论 上 说 ,测量 的 侧面 越 多 ， 测 量 的 水 平 数 越 多 ， 
对 测验 的 分 析 就 越 完善 。 但 是 ， 对 于 后 续 的 统计 分 析 来 说 ， 轩 
难 也 就 会 越 大 ， 甚 至 无 法 进行 。 
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(四 ) G 研究 

概 化 理论 的 统计 分 析 分 为 两 个 阶段 ， 第 一 阶段 叫 作 G 研 
究 ， 第 二 阶段 叫 作 D 研究 。 研 究 者 设计 的 测验 情境 关系 及 用 
一 定 方法 采集 的 测验 数据 被 称 作 为 测验 的 观察 领域 。G 研究 在 
这 观察 域 数据 上 进行 。G 研究 的 目的 是 要 定量 估计 观察 领域 中 
测量 目标 的 方差 以 及 各 个 测量 侧面 所 产生 的 测量 误差 方差 。 从 
统计 角度 说 就 是 要 分 解 观察 数据 总 体 方差 ， 估 计 各 因素 期 望 方 
差 ， 采 用 的 方法 是 方差 分 量 分 析 法 。 方 差分 量 分 析 的 第 一 步 就 
是 分 解 总 体 方差 。 概 化 理论 把 数据 总 方差 分 解 成 三 类 方差 ， 第 
一 类 是 测量 目标 主 效 应 方差 第 二 类 是 测量 侧面 主 效 应 方差 ， 
有 见 个 测量 侧面 就 有 几 个 侧面 主 效应 方差 ;第 三 类 是 各 种 交 王 
效应 方差 。 交 互 效 应 方差 可 按 级 别 层 次 不 同 分 类 ， 种 类 多 少 视 
测量 侧面 的 多 少 而 定 。 交 互 效应 方差 的 另 一 种 分 类 是 它 有 各 测 
量 侧面 与 测量 目标 形成 的 各 级 交互 效应 方差 和 纯 由 各 测量 侧面 
形成 的 各 级 交互 效应 方差 两 种 类 型 。 

方差 分 量 分 析 的 第 二 步 与 一 般 的 方差 分 析 不 同 。 一 般 的 方 
差分 析 分 解 方差 的 目的 是 为 了 进行 F 检验， 即 根 据 样本 方差 
检验 期 望 均 方 的 假设 值 。 概 化 理论 G 研究 的 目的 是 利用 样本 
方差 估计 各 种 效应 的 期 望 均 方 。 所 估 的 测量 目标 效应 期 望 均 方 
是 测量 目标 个 体 差异 的 描写 量 ， 所 估 的 各 测量 侧面 效应 期 望 均 
方 是 各 测量 侧面 不 同 水 平 间 差 异 的 描写 量 ， 实 际 上 是 各 测量 侧 
面 对 测 量 目标 干扰 程度 的 描写 重 ， 也 就 是 误差 描写 量 。 各 交互 
效应 期 望 均 方 是 各 测量 侧面 对 测量 目标 的 交互 干扰 程度 的 描写 
量 ， 也 是 一 种 测量 误差 。 通 过 G 研究 得 到 了 对 各 种 效应 期 望 
均 方 的 估计 ， 并 不 是 概 化 理论 的 最 终 研 究 目的 ， 它 只 是 为 后 续 
的 G 研究 提供 了 基础 数据 ，D 研究 才 是 概 化 理论 最 具 特 色 的 
计量 分 析 手 段 。 
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(五 ) D 研究 

D 研究 (Decision Study〉 称 作为 决策 研究 。D 研究 的 目的 
是 利用 G 研究 的 结果 数据 ， 在 原 设计 的 测验 情境 关系 范围 之 
内 ,分 析 比 较 各 种 可 能 的 测验 方案 ,测验 工作 者 可 以 根据 分 析 
结果 ,结合 可 能 的 实施 条 件 优选 实际 测验 方案 。D 研究 最 终 提 
供 的 是 各 种 测验 方案 于 的 测验 误差 估计 值 。 所 谓 各 种 测验 方案 
都 是 在 原 设计 方案 采集 的 数据 范围 内 ， 对 测验 情境 关系 作出 各 
种 不 同 的 调整 而 得 到 的 。 调 整 的 方法 之 一 是 斩 定 某 一 个 或 菜刀 
个 测量 侧面 ， 使 这 些 侧面 的 效应 方差 成 为 测量 目标 效应 方差 的 
一 部 分 ， 从 而 减 小 了 误差 效应 方差 总 量 ， 增 大 了 测量 目标 效应 
方差 。 但 是 这 种 调整 ， 如 前 面 所 述 ， 是 以 缩小 测验 结果 的 解释 
范围 为 代价 的 。 调 整 的 另 一 种 方法 是 改变 某 个 或 某 几 个 测量 便 
面 的 水 平 数 。 增 加 测量 侧面 的 水 平 数 意味 着 增加 测量 的 重复 
” 数 ， 同 样 可 以 达到 提高 测量 精度 的 目的 。 调 整 的 第 三 种 方法 是 
改变 测量 数据 的 采集 方法 ， 主 要 是 将 交叉 设计 的 数据 部 分 或 全 
部 地 改 为 混合 设计 或 嵌 套 设计 ， 达 到 减少 投入 、 简 化 测量 的 目 
的 ， 但 要 以 不 过 多 增加 测量 误差 为 原则 。 | 

对 于 变化 了 的 各 种 新 测验 方案 ，D 研究 给 出 了 两 个 比较 优 
劣 的 误差 指标 : 一 个 叫 作 相对 误差 方差 ， 一 个 叫 作 绝对 误差 方 
差 。 相 对 误差 方差 是 所 有 与 测量 目标 有 关 的 交互 效应 方差 之 
和 ,绝对 误差 方差 是 除 测量 旭 标 效应 方差 之 外 的 所 有 方差 
之 和 。 

在 误差 指标 的 基础 上 ，D 研究 进一步 给 出 了 测验 精度 的 两 
个 综合 指标 : 一 个 是 衡量 常 模 参 照 性 测验 质量 的 概 化 系数 ， 一 
个 是 衡 重 目标 参照 性 测验 质量 的 依存 系数 ， 分 别 简称 为 G 系 
数 和 由 系数 。G 系数 是 测量 目标 效应 方差 与 测量 目标 效应 方差 
加 相对 误差 方差 之 和 的 比 ， 它 是 对 常 模 参照 性 测验 分 数 稳定 性 
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程度 的 度量 。 册 系数 是 测量 目标 效应 方差 与 总 效应 方差 之 比 ， 
它 是 对 目标 参照 性 测验 分 数 稳定 性 和 一 致 性 两 种 程度 的 度量 。 
这 两 个 系数 类 似 于 经 典 理 论 中 的 信 度 ， 只 是 在 概 化 理论 中 ， 同 
一 测量 目标 可 以 有 好 多 个 测验 信和 度 ， 信 度 可 随 著 测验 的 性 质 不 
辐 而 不 同 ， 也 随 着 测验 情境 关系 的 不 同 而 不 同 。 

在 效 度 研究 方面 ， 概 化 理论 沿用 了 经 典 理论 的 效 度 概念 。 
但 是 概 化 理论 效 度 的 计算 却 与 经 典 理论 不 同 。 概 化 理论 的 效 度 
可 以 在 原 测量 设计 的 测验 情境 关系 下 ,在 D 研究 中 应 用 G 研 
究 结果 直接 计算 求 取 ， 所 得 值 的 确切 含义 是 : 用 某 一 侧面 的 重 
复数 据 估 计 洞 量 目标 一 般 水 平时 的 效 度 。 


二 、 双 侧面 交叉 设计 模型 的 概 化 分 析 


概 化 理论 的 基本 思想 已 如 前 述 ， 为 使 读者 对 概 化 分 析 有 一 
直观 认识 ， 现 以 双 侧 面 交叉 设计 模型 为 例 ， 介 绍 一 下 概 化 分 析 
的 具体 过 程 。 双 侧面 交叉 设计 指 这 样 一 种 测验 情境 关系 -个 
测验 目标 ， 记 为 bp， 测验 目标 有 K 个 元 素 (p=1，2，3，…， 
K);. 两 个 测验 侧面 ， 分 别 记 为 1 和 o， 侧 面 ; 有 了 个 水 平 〈i = 
1，2，3，…，T)， 侧 面 o 有 ] 个 水 平 (o=1, 2, 3,…,， J])。 
所 谓 交 叉 设 计 是 指 ， 对 于 测验 目标 p 中 的 每 一 个 元 素 ， 必 须 接 
受 i 和 。 两 个 侧面 所 有 水 平 组 合 的 处 理 。 根 据 双 侧面 交叉 设计 
进行 测试 ， 最 后 采集 的 样本 数据 构成 一 个 三 维 数据 集合 ， 
{Xolp=1, 2, 3, +, K; i= 1，2，3，…，Ti o=1, 2, 3, ,| 
概 化 分 析 以 这 个 数据 集 为 基础 分 二 步 进行 。 
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(一 ) G 研究 

首先 应 用 采集 的 样本 数据 计算 四 类 七 种 效应 均 方 《计算 公 
式 同 三 因素 析 因 实验 方差 分 析 的 均 方 计算 一 样 ， 本 处 不 再 抄 
列 )， 分 别 为 ; 

目标 均 方 : MS (P) 

侧面 均 方 : MS (i)，MS 《o) 

与 测验 目标 有 关 的 交互 效应 均 方 : 

MS {pi), MS (po)}, MS (pio) 

测验 侧面 间 的 交互 效应 均 方 : MS (oi) 

其 次 ， 据 所 求 样本 效应 均 方 ， 估 计 相 应 的 期 望 均 方 ， 估 计 
公式 如 下 : 

F {p) = [MS (p) -MS (p) -MS (po) + MS (pio)] /TJ 

?OOD = [MSG -MS (pg) -NMS (io) +MS (pioj /KJ ° 

pz (oj = [MS (0) ~ MS (po) -MS (io) + MS (pio)] /KT 

?2 {pi) = [MS (pi) ~ MS (pio)] /J 

和 (po) = [MS (po) - MS (pio)] /T. 

2 (io} = [MS (io) - MS (pio)] /K 

0 (pio) = MS (pio) 
估 出 各 种 效应 的 期 望 均 方 ，C 研究 就 完成 了 。 


(二 ) D 研究 

D 研究 的 任务 是 在 C 研究 基础 上 对 各 种 调整 了 的 测验 情 
境 关系 进行 分 析 ， 优 选 测 验方 案 。 如 前 面 所 述 ， 调 整 测 验 情境 
关系 结构 的 方法 有 三 种 ， 其 中 固定 测验 侧面 的 方法 和 改变 数据 
结构 ， 将 交叉 设计 改 为 嵌 套 设计 的 方法 ,在 D 研究 中 表现 为 
部 分 相应 的 期 望 均 方 进行 合并 的 计算 ， 在 此 不 再 介绍 。 现 以 改 
变 测验 侧面 水 平 数 为 例 ， 介 绍 一 下 D 研究 的 计算 过 程 。 若 记 
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ni 和 me 分 别 为 1 侧面 和 。o 侧面 拟 采用 的 新 的 水 平 数 ， 以 大 写字 
母 表示 新 的 测验 情境 ， 则 新 情境 下 各 期 望 均 方 的 估计 公式 
如 下 : 

02 (P) =0 (p) 

o (1) =0 (1) /mi 

o (0) =@ (0) /n, 

0 (PD) =0 (pi) /n 

o (PO) =@ (po) ij 

o (PIO) =0 (Pio) /nin, 

0 (10) =o (io) /nin, 

最 后 计算 新 测验 情境 下 各 误差 方差 和 信和 度 系 数 . 

真 分 数 方差 : 

cz (>) = (P) 

相对 误差 方差 : 

0 (t) =0 (PI) +0 (PO) +02 (PIO) 

绝对 误差 方差 : 

0 (A) =r (t) + (1) + (0) 

概 化 系数 : 

G= Fp?=0 (P) / [6 (P) +9 (¢)] 

依存 系数 : 

p=0 (P) / [go (P) + (A)] 

依据 所 求 的 各 种 新 测验 情境 关系 下 的 误差 方差 和 信和 度 系 
数 ， 就 可 以 优选 测验 方案 。 概 化 理论 把 采取 原始 数据 的 原 测验 
情境 关系 的 测验 侧面 全 体 称 为 可 测量 全 域 (Universe of Possi- 
ble measures); 把 研究 者 改变 了 的 意欲 分 析 比 较 的 那些 新 测验 
情境 关系 的 测验 侧面 全 体 称 为 概 化 全 域 (Universe of General- 
ization， 也 译 为 拓 广 全 域 )。 一 般 来 说 ， 概 化 全 域 只 是 可 测量 
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全 域 的 子 集 。 


三 、 概 化 理论 简 评 


用 方差 分 析 的 方法 分 析 心 理 与 教育 测量 的 历史 不 算 短 了 ， 
早 在 50 年 前 就 有 学 者 开始 讨论 用 方差 分 析 方法 分 析 测 验 信 度 。 
但 是 概 化 理论 的 基本 原理 却 成 形 于 Cronbach、Rajaratnam 和 和 
Cleser 3 人 1963 年 和 1965 年 发 表 的 两 篇 文章 ， 之 后 就 有 了 
Cuonbs 领衔 主编 的 第 一 本 概 化 理论 专著 《行为 测量 的 可 等 
性 》 问 批 。 而 后 概 化 理论 在 美国 和 欧洲 的 一 些 国家 得 到 了 广泛 
地 重视 ,不仅 是 概 化 理论 的 基本 原理 ， 概 化 理论 的 基本 技术 也 
渐 趋 成 熟 ， 显 示 了 较 高 的 应 用 价值 。 可 以 认为 概 化 理论 有 一 对 
双亲 : 经 典 测验 理论 和 方差 分 量 分 析 。 但 是 不 能 把 概 化 理论 等 
同 二 经 典 理论 或 等 同 于 方差 分 量 分 析 。 概 化 理论 在 分 析 问 题 的 
视角 、 理 论 基 础 、 概 念 体系 等 方面 与 经 典 理论 相 比 ， 差 异 比 它 
们 间 的 类 似 显得 更 大 一 些 。 在 模型 设计 、 专 业 术 语 、 计 区 分 析 
角度 等 方面 也 与 一 般 方 差分 析 相距 甚 远 。 

就 目前 发 展 状况 看 ， 应 用 概 化 理论 分 析 测验 行为 必须 注意 
以 下 两 个 问题 其 一 是 ， 从 统计 本 质 来 说 ， 概 化 理论 是 随机 抽 
祥 误 差分 析 模 型 ， 其 分 析 基 础 是 样本 数据 。 概 化 分 析 的 特色 是 
可 以 比较 各 种 测验 方案 ， 但 应 用 者 要 注意 到 抽样 误差 的 影响 ， 
即 为 了 保证 概 化 分 析 结果 数据 的 可 靠 性 ， 应 用 者 必须 充分 保证 
样本 数据 的 代表 性 ， 除 要 科学 抽样 之 外 ， 还 要 注意 对 施 测 条 件 
的 控制 。 如 果 施 测 条 件 前 后 不 一 ， 则 就 失去 了 概 化 分 析 的 作 
用 。 用 概 化 分 析 的 语言 说 ， 测 验 的 情境 关系 发 生 了 变化 ， 新 测 
验 已 不 是 原 观察 领域 可 拓 广 的 测验 领域 了 。 其 二 是 ， 利 用 概 化 
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理论 分 析 测验 误差 ， 若 测验 侧面 过 多 ， 不 仅 会 有 实测 组 织 的 困 
难 ， 还 会 有 模型 设计 和 计量 分 析 的 困难 ， 甚 至 由 于 统计 技术 限 
制 而 无 法 完成 。 还 有 一 点 要 提 及 的 是 ， 计 算 中 可 能 会 出 现 某 些 
方差 分 量 估计 值 为 负 ， 这 是 一 个 数理 统计 学 者 们 都 还 在 研究 的 
理论 问题 ， 实 际 应 用 中 一 般 可 以 通过 令 这 些 分 量 估计 值 为 9 而 
继续 后 面 的 计算 。 
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附录 一 ”心理 测验 管理 条 例 (试行 ) 


心理 测验 指 在 鉴别 智力 、 因 材 施 教 、 人 才 选 拔 、 就 业 指 
导 、 临 床 诊断 等 方面 具有 咨询 ， 鉴 定 和 预测 功能 的 测量 工具 。 
凡 从 事 研 制 、 使 用 和 出 售 心理 测验 的 中 国 心 理学 会 会 员 个 人 或 
所 属 机 构 ， 有 责任 维护 心理 测验 工作 健康 发 展 。 在 从 事 心理 测 
验 工作 中 须 遵循 本 条 例 ; 

一 、 测 验 的 登记 注册 

1. 凡 中 国 心 理学 会 会 员 个 人 或 集体 所 编制 、 和 修订 、 发 行 
与 出 售 的 心理 测验 ， 都 必须 到 中 国 心理 学 会 心理 测量 专业 委员 
会 申请 登记 注册 。{ 非 会 员 也 可 申请 登记 》 

2. 心理 测量 专业 委员 会 只 认可 那些 经 科学 论证 程序 审核 
鉴定 的 标准 化 测验 ， 并 予以 登记 注册 。 凡 经 过 登记 注册 的 心理 
测验 ， 均 给 予 统一 分 类 编号 ， 并 定期 在 中 国 心理 学 会 主办 的 
《心理 学 报 》 公 布 。 

二 、 测 验 使 用 人 员 的 资格 认定 

3. 心理 专业 的 本 科 以 上 毕业 生 或 在 心理 测量 专家 的 指导 
下 ,具有 两 年 以 上 测验 使 用 经 验 者 ， 可 获得 测验 使 用 资格 。 

4. 凡 在 心理 测量 专业 委员 会 备案 并 获得 认可 的 心理 测量 
培训 班 ， 由 本 专业 委员 会 颁发 测验 使 用 人 员 的 资格 认定 书 。 

5. 凡 经 过 心理 测量 培训 班 的 专门 训练 并 获得 资格 认定 书 
者 ， 具 有 使 用 测验 的 资格 。 测 验 使 用 人 员 的 资格 认定 书 分 为 两 
种 : 单项 测验 使 用 资格 认定 书 与 多 项 测验 使 用 资格 认定 书 。 

三 、 测 验 的 控制 使 用 与 保管 
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6. 任何 心理 测验 必须 对 该 测验 的 使 用 范围 、 实 施 程序 以 
及 洞 验 使 用 者 的 资 烙 加 以 明确 规定 ， 并 在 该 测验 手册 中 作出 详 
尽 描 述 。 

7. 具有 测验 使 用 资格 者 ， 可 凭 测验 使 用 资格 认定 书 购买 
和 使 用 相应 的 心理 测验 器 材 ， 并 要 负责 对 测验 器 材 的 妥善 
保管 。 

8. 测验 使 用 者 必须 严格 按照 测验 指导 手册 的 规定 使 用 测 
验 。 在 使 用 心理 测验 作为 诊断 或 取舍 决定 等 重要 决策 的 参考 依 
据 时 ,测验 使 用 者 必须 选择 适当 的 测验 ， 并 要 采取 一 定 的 检查 
措施 : 测验 使 用 的 记录 及 书面 报告 应 保存 备查 。 

9. 凡 中 国 心理 学 会 会 员 个 人 或 机 构 在 修订 与 出 售 他 人 所 
编制 的 心理 测验 时 ， 必 须 首选 征 得 该 测验 的 主管 单位 或 作者 的 
同意 。 印 刷 、 发 行 与 出 售 心理 测验 器 材 的 机 构 应 该 到 心理 测量 
专业 委员 会 登记 ， 并 只 能 将 测验 器 材 售 予 具有 测验 使 用 资 
格 者 。 

10. 为 保证 测验 的 科学 性 与 实用 价值 ， 标 准 化 测验 的 内 容 
与 器 材 不 得 在 各 类 非 专业 刊物 上 发 表 。 

11. 本 条 例 自 中 国 心理 学 会 批准 之 日 起 生效 ， 其 修订 与 解 
释 权 归 中 国 心 理学 会 心理 测量 专业 委员 会 。 


中 国 心理 学 会 
1992 年 12 月 
{( 原 载 《心理 学 报 》1993 年 第 2 期 ) 


附录 二 ”心理 测验 工作 者 的 道德 准则 


心理 测验 在 鉴别 智力 、 因 材 施 教 、 人 才 选 找 、 就 业 指导 、 
临床 诊断 等 方面 具有 作为 咨询 鉴定 和 预测 工具 的 效能 。 几 在 诊 
断 、 鉴 定 、 咨 询 及 人 员 选 拔 等 工作 中 使 用 心理 测验 的 人 员 ， 必 
须 具 备 心理 测量 专业 委员 会 所 认定 的 资格 。 在 使 用 心理 测验 
时 ， 心 理 测验 工作 者 应 高 度 重视 科学 性 与 客观 性 原则 ， 不 利用 
职位 或 业务 关系 妨碍 测验 功能 的 正常 发 挥 。 使 用 心理 测验 的 人 
员 ， 有 责任 遵循 下 列 道 德 蕉 则 。 

1. 心理 测验 工作 者 应 知道 自己 承担 的 重大 社会 责任 ， 对 
待 测验 工作 须 持 有 科学 、 严 肃 、 谨 慎 、 谦 虚 的 态度 。 

2. 心理 测验 工作 者 应 自觉 遵守 国家 的 各 项 法 令 与 法 规 ， 
遵守 《心理 测验 管理 条 例 》。 

3. 心理 测验 工作 者 在 介绍 测验 的 效能 与 结果 时 ， 必 须 提 
供 真实 和 准确 的 信息 ， 避 免 感 情 用 事 ， 虚 假 的 断言 和 曲解 。 

4. 心理 测验 工作 者 应 尊重 被 测 者 的 人 格 ， 对 测量 中 获得 
的 个 人 信息 要 加 以 保密 ， 除 非 对 个 人 或 社会 可 能 造成 危害 的 情 
况 ， 才 能 告知 有 关 方面 。 

5. 心理 测验 工作 者 应 保证 以 专业 的 要 求 和 社会 的 需要 来 . 
使 用 心理 测验 ， 不 得 滥用 和 单纯 追求 经 济 利益 。 

6. 为 维护 心理 测验 的 有 效 性 ， 凡 规定 不 宜 公开 的 心理 测 
验 内 容 、 器 材 、 评 分 标准 以 及 常 模 等 ， 均 应 保密 。 

7. 心理 测验 工作 者 应 以 正确 的 方式 将 所 测 结 果 告 知 被 测 
者 或 有 关 人 员 ， 并 提供 有 益 的 帮助 与 建议 。 在 一 般 情况 下 ， 只 
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告诉 测验 的 解释 ， 不 要 告诉 测验 的 具体 分 数 。 

8. 心理 测验 工作 者 及 各 心理 测量 机 构 之 间 在 业务 交流 中 ， 
应 以 诚 相 等， 互相 学 习 ， 团 结 协作 。 

9. 在 编制 、 修 订 或 出 售 、 使 用 心理 测验 时 ， 应 考虑 到 可 
能 带 来 的 利益 冲突 ， 避 免 有 损 于 心理 测量 工作 的 健康 发 展 。 


中 国 心理 学 会 
1992 年 12 月 
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